Намаляването на размерността е обичайна техника, използвана при анализа на данни, за да се намали броят на променливите или характеристиките в набор от данни, като същевременно се запази възможно най-много информация. Има няколко метода за намаляване на размерността, но в тази статия ще се съсредоточим върху линейния дискриминантен анализ (LDA) и анализа на основните компоненти (PCA), техните концепции и разлики.

Анализ на основните компоненти (PCA)

PCA е неконтролиран метод за намаляване на размерността, който има за цел да намери посоките на максимална дисперсия в набор от данни. Идеята е да се намери по-малък набор от променливи или функции, които улавят най-важните модели в данните. PCA често се използва за предварителна обработка на данни за алгоритми за машинно обучение.

PCA работи, като първо центрира данните около средната стойност и след това намира собствените вектори и собствените стойности на ковариационната матрица. Собствените вектори представляват посоките на максимална дисперсия, докато собствените стойности представляват количеството дисперсия, обяснено от всеки собствен вектор. След това собствените вектори се използват за проектиране на данните върху пространство с по-ниско измерение.

Броят на основните компоненти, които трябва да се запазят, се определя от размера на дисперсията, която искаме да задържим. Обикновено запазваме основните компоненти, които обясняват определен процент от общата дисперсия в данните. След определен брой, дисперсията, обяснена от компонентите на PCA, кумулативно, не се увеличава много с нарастващите компоненти.

Линеен дискриминантен анализ (LDA)

LDA е контролиран метод за намаляване на размерността, който има за цел да намери линейната комбинация от характеристики, която най-добре разделя класовете в набор от данни. Идеята е да се намали размерността на данните, като същевременно се запази информацията, която е най-подходяща за класовата дискриминация.

LDA работи, като първо изчислява средната стойност и ковариационната матрица за всеки клас в данните. След това изчислява матрицата на разсейване между класовете и матрицата на разсейване в рамките на класа. Целта е да се намери проекция, която максимизира съотношението на матрицата на разсейване между класовете към матрицата на разсейване в рамките на класа. Тази проекция е линейната дискриминантна функция.

След като бъде намерена линейната дискриминантна функция, можем да проектираме данните върху тази функция, за да получим намаленото представяне на данните. Получените трансформирани данни могат да се използват за класификация.

PCA срещу LDA — Кога да използваме какво?

PCA и LDA са мощни техники за намаляване на размерността, но имат различни цели и допускания.

Една от основните разлики е в техните цели. PCA има за цел да намери посоките на максимална вариация в данните, докато LDA има за цел да намери проекцията, която най-добре разделя класовете в данните.

Друга разлика е в техните предположения. PCA е неконтролиран метод, който не взема предвид етикетите на класа в данните. LDA, от друга страна, е контролиран метод, който предполага, че данните са нормално разпределени и ковариационните матрици за всеки клас са равни.

И накрая, PCA често се използва за проучвателен анализ на данни и предварителна обработка на данни за алгоритми за машинно обучение, докато LDA често се използва за класификация и избор на функции.

Резюме

В заключение, PCA и LDA са мощни техники за намаляване на размерността, които могат да се използват в различни приложения. PCA е неконтролиран метод, който има за цел да намери посоките на максимална вариация в данните, докато LDA е контролиран метод, който има за цел да намери проекцията, която най-добре разделя класовете в данните. Изборът на метод зависи от конкретния проблем и характеристиките на набора от данни.

Благодаря ви, че прочетохте! Надявам се статията да ви е харесала :)