Анализът на главните компоненти (PCA) е да се намери подмножеството от променливи, което най-добре обяснява вариацията в данните. Да видим какво точно означава това,

Често се случва да има толкова много функции в набора от данни и малка част от информацията присъства във всяка характеристика или променлива. Например, да предположим, че имаме набор от данни, който се състои от 50 колони (характеристики), ще бъде почти невъзможно да визуализираме тези 50 характеристики в един и същи график (като 50-измерен изглед или двуизмерен график за всяка функция СРЕЩУ 49 други) и да търсим прозрения. Така че това, което правим, е да намерим нискоразмерно представяне на данните, което улавя възможно най-много от информацията. Ако можем да получим двуизмерно представяне на данните, което улавя по-голямата част от информацията, тогава можем да начертаем наблюденията в това нискоизмерно пространство. PCA предоставя инструмент за точно това.Той намира нискоразмерно представяне на набор от данни, което съдържа възможно най-много вариации. Идеята е, че всяко едно от наблюденията, които кажем „не“, живее в някакво p-измерно пространство, не всички от тези измерения са еднакво интересни. PCA търси малък брой измерения, които са възможно най-интересни, където концепцията за интересно се измерва с количеството, в което наблюденията варират по всяко измерение. Нека да разгледаме малък пример, да предположим, че имаме рекламни данни, които се състоят от две характеристики: размер на населението (поп) в десетки хиляди хора и рекламни разходи за определена компания (реклама) в хиляди долари, за 100 града ( бр.наблюдения). Така че за двете характеристики ще имаме двуизмерен изглед на данните. Когато търсим изглед с по-ниско измерение, ние сме настроени да намерим основни компоненти, използвайки данните или дадена функция, която най-добре обяснява вариацията в данните (които обикновено са по-малко от броя на характеристиките, присъстващи в данните).

Зелената плътна линия на фигура 1 представлява посоката на първия основен компонент (Z1) на данните. Можем да видим с око, че това е посоката, по която има най-голяма променливост в данните (като цяло по-населените градове ще имат по-големи разходи за реклама). Тоест, ако проектираме 100-те наблюдения върху тази линия, тогава получените прогнозирани наблюдения ще имат най-голямата възможна дисперсия; проектирането на наблюденията върху всяка друга линия би довело до прогнозирани наблюдения с по-ниска дисперсия. Проектирането на точка върху линия просто включва намиране на местоположението на линията, което е най-близо до точката, илюстрирано на фиг.2.

Което означава, че проектираме оригиналните данни от 2D равнина към 1D линия. Сега във фиг.1 има и синя пунктирана линия, която е вторият главен компонент (Z2) и е перпендикулярна (ортогонална) на първата (зелена линия). Проектирането на точките върху тази линия ще обясни по-малка дисперсия от първата. Така че има две важни свойства на основните компоненти:

1) Посоките на главните компоненти са ортогонални.

2) Следващият основен компонент винаги обяснява по-малка дисперсия от предишния.

Сега, тъй като самите данни са двуизмерни, не можем да имаме повече от 2 главни компонентни вектора. На фигура 1, имайки 3-ти главен компонент, ще има същата посока като 1-ви. Забележка: Населението и разходите за реклама се измерват в различни скали, тоест за населението, измерено в брой хора, и за разходите за реклама, измерено в долари, следователно трябва да ги стандартизираме (премахвайки ефекта от измерването). Сега какво да кажем за набора от данни, за който характеристиките са по-големи от 2? Ние илюстрираме използването на PCA върху набора от данни на USArrests. За всеки от 50-те щата (брой наблюдения) в Съединените щати наборът от данни съдържа броя на арестите на 100 000 жители за всяко от трите престъпления: нападение, убийство и изнасилване. Ние също така записваме UrbanPop (процентът от населението във всеки щат, живеещо в градски райони).

PCA беше извършена след стандартизиране на всяка променлива, за да има средна нула и стандартно отклонение едно. Това е необходимо, тъй като измерването на UrbanPop и това на престъпленията са в различни скали. Наличието на средна нула ни позволява да изместим произхода, така че всички характеристики да бъдат измерени от същата точка.

Фигура 3 изобразява първите два основни компонента на тези данни.

В горната фигура стойност за основния компонент (1 и 2) стойност по-малка от 0 показва под средното (тъй като стойностите за всички характеристики са стандартизирани). Например за щата Монтана стойността за Убийство, Нападение, Изнасилване и Градски поп са по-ниски от средните.

Забележка: Urbanpop, Murder, Assault и Rape са характеристики на набора от данни на USArrest.

На Фигура 3 виждаме, че първият зареждащ вектор (стойности на оста X за всяка характеристика) поставя приблизително еднакво тегло на нападение, убийство и изнасилване, с много по-малко тегло на UrbanPop. Следователно този компонент приблизително съответства на мярка за общите нива на тежки престъпления. Вторият зареждащ вектор (стойности на оста Y за всяка функция) поставя по-голямата част от тежестта си върху UrbanPop и много по-малко тежест върху другите три характеристики. Следователно този компонент грубо съответства на нивото на урбанизация (колко населена е държавата) на държавата. Като цяло виждаме, че свързаните с престъпността променливи (убийство, нападение и изнасилване) са разположени близо една до друга и че променливата UrbanPop е далеч от другите три. Това показва, че променливите, свързани с престъпността, са свързани помежду си - щатите с високи нива на убийства обикновено имат високи нива на нападения и изнасилвания - и че променливата UrbanPop е по-слабо свързана с останалите три. Нашето обсъждане на векторите на натоварване предполага, че щати с големи положителни резултати по първия компонент, като Калифорния, Невада и Флорида, имат високи нива на престъпност, докато щати като Северна Дакота, с отрицателни резултати по първия компонент, имат ниски нива на престъпност. Калифорния също има висок резултат по втория компонент, което показва високо ниво на урбанизация, докато обратното е вярно за щати като Мисисипи. Щатите, близки до нулата и по двата компонента, като Индиана, имат приблизително средни нива на престъпност и урбанизация.

PCA проектира данните върху по-ниски измерения (което само по себе си е толкова невероятно!), което помага при визуализацията и извличането на прозрения (Exploratory Data Analysis), Има още едно приложение, в което основните компоненти се използват като функции за прогнозиране на изхода (Supervised обучение), известен като регресия на главния компонент (PCR).

Изчисляването на главния компонент е твърде техническо, за да се обсъжда тук, то включва концепцията на линейната алгебра:Разлагане на сингулярна стойност (SVD) .

Справка: Въведение в статистическото обучение с приложения в R, книга от Робърт Тибширани, Гарет Джеймс, Тревър Хасти, Даниела Витен.