По принцип, ако имаме огромно количество необработен набор от данни с голямо измерение, върху който да работим, най-вече имаме много непоследователни и излишни функции, които няма да са много полезни за данните, но може не само да увеличат времето за изчисление, но и да усложнят по време на проучвателния анализ на данни и обработка на данни. Това явление се нарича Проклятие на размерността. За да преодолеем този проблем, трябва да намалим/премахнем функции, които не са важни, можем да постигнем това, като използваме техники за намаляване на размерността. PCA е една от най-простите техники за намаляване на размерите, използвани в индустрията.

PCA основно проверява вариацията на всяка характеристика, спредовете, моделите и корелацията между тях, за да намали измерението по такъв начин, че важна или значима информация за данните да бъде запазена. За да приложим това, трябва да разберем различните стъпки, изпълнявани в PCA.

Стъпка 1: Предварителна обработка на данни: Нормализация/стандартизация на колони:Нормализиране на колони и стандартизация са две различни техники за мащабиране на данни по такъв начин, че всички точки от данни да са в диапазон. Стандартизацията на колони се използва доста често в индустрията. Използването на това ще доведе до спиране на пристрастния резултат.

Нормализиране на колона:Да приемем, че имаме характеристика f с точки от данни (a1,a2,…..an). Нека max(a) е максималните стойности сред всички точки от данни, а min(a) е минималната стойност. Ще създадем нови зададени стойности като (a1', a2',…..an'), така че ai' = (ai — min(a))/(max(a)) — min(a)) за всички i, където i принадлежи към 1….n. След извършване на тази трансформация всички AI ще бъдат между [0,1]. Така че основно нормализирането на колони смачква данните по такъв начин, че всички стойности да са между [0,1], независимо от техния мащаб.

Стандартизация на колони:Да приемем, че имаме функция f с точки от данни (a1,a2,…..an). Нека max(a) е максималните стойности сред всички точки от данни, а min(a) е минималната стойност. Ще създадем нови зададени стойности като (a1', a2',…..an’), така че средното и стандартното отклонение на стандартизираните данни да бъдат съответно 0 и 1. За да постигнем това, ние изчисляваме средната стойност на извадката (a`) и стандартното(ите) отклонение на извадката и стандартизираме ai’ така, че ai’=(ai-a`)/s за всички i, където i принадлежи на 1….n. Това ще премести всички точки от данни в правилния диапазон.

Стъпка 2: Изчисляване на ковариационна матрица:Ковариационната матрица основно ни помага да измерим връзката между две характеристики. Да кажем, че ако имаме 2 характеристики X и Y, тогава ковариацията между тях се изчислява по следния начин:

Има 2 важни свойства на ковариацията:

Cov(X,X) = Var(X)

Cov(X,Y) = Cov(Y,X)

И така, ковариационната матрица е квадратна симетрична матрица и ако характеристика е стандартизирана, както видяхме в предишния раздел, тогава Cov(X,Y) = 1/n(Xi * Yj) като средно=0 в случай на стандартизация. Така че, това е основно точково произведение между матрицата, според свойствата на матрицата, Cov(X,Y) = 1/n(Transpose(Xi) Yj). По-долу са точките за ковариационната матрица:

  1. Стойността на ковариацията показва колко козависими са две променливи една спрямо друга.
  2. Ако Cov(X, Y) = положителен, това означава, че характеристиките са право пропорционални една на друга.
  3. ако Cov(X,Y) = отрицателен, това означава, че характеристиките са обратно пропорционални една на друга.

Стъпка 3: Изчислете собствените вектори и собствените стойности:

ако има d* d матрица, тогава всяка от тях ще има d собствени стойности и съответните й собствени вектори, така че всяка собствена стойност да е по-голяма от предходната и всеки собствен вектор да е перпендикулярен един на друг (Transpose(xi)Xj=0) .

Собствените вектори и собствените стойности са математическите конструкции, които трябва да бъдат изчислени от ковариационната матрица, за да се определят основните компоненти на набора от данни. Основните компоненти са новият набор от характеристики, които се получават от първоначалния набор от характеристики. Те се изчисляват по такъв начин, че новополучените характеристики са много значими и независими една от друга.

За всеки собствен вектор има собствена стойност. Размерите в данните определят броя на собствените вектори, които трябва да изчислим. Да разгледаме 2-D набор от данни, за който са изчислени 2 собствени вектора (и съответните им собствени стойности). Идеята зад собствените вектори е да се използва ковариационната матрица, за да се разбере къде в данните има най-голямо количество дисперсия. Тъй като по-голямата вариация в данните означава повече информация за данните, собствените вектори се използват за идентифициране и изчисляване на главните компоненти. Собствените стойности просто обозначават скаларите на съответните собствени вектори.

Стъпка 4: Изчисляване на главния компонент:След като сме изчислили собствените вектори и собствените стойности, всичко, което трябва да направим, е да ги подредим в низходящ ред, където собственият вектор с най-висока собствена стойност е най-голям значителен и по този начин формира първия главен компонент. Основните компоненти с по-малка значимост могат да бъдат премахнати, за да се намалят размерите на данните. Последната стъпка в изчисляването на основните компоненти е да се формира матрица, известна като матрица на характеристиките, която съдържа всички значими променливи на данни, които притежават максимална информация за данните.

Стъпка 5: Подмяна и повторно създаване на матрица с данни:Последната стъпка е да пренаредите оригиналните данни с крайните основни компоненти, които представляват максималната и най-значимата информация от набора от данни. За да заменим оригиналната ос на данните с новосформираните главни компоненти, ние просто умножаваме транспонирането на оригиналния набор от данни по транспонирането на получения вектор на характеристиките.