Факторен анализ в машинното обучение:

  1. Редуцирайте голям брой променливи в по-малък брой фактори.

2. Поставя максимална обща дисперсия в общ резултат.

3. Асоциира множество наблюдавани променливи с латентна променлива.

4. Има еднакъв брой фактори и променливи, като всеки фактор съдържа определено количество обща дисперсия.

Собствена стойност: Мярка за дисперсията, която даден фактор обяснява за наблюдаваните променливи. Фактор със собствена стойност ‹ 1 обяснява по-малко дисперсия от единична наблюдавана стойност.

Процес на факторен анализ:

  • Анализ на основните компоненти (PCA)

Извлечете скрития фактор от набора от данни.

Дефинира данни, използвайки по-малък брой компоненти, обяснявайки дисперсията във вашите данни

Намалете сложността на изчисленията.

Определете, че новите данни са част от групата точки от данни от набора за обучение.

  • Линеен дискриминантен анализ (LDA)

Намалява размерите.

Търсете линейната комбинация от променливи, която най-добре разделя два класа.

Намалете степента на пренастройване.

Определете как да класифицирате новото наблюдение извън група класове.

Посока на максималната дисперсия:

  1. PCA търси линейната комбинация от променливи, за да извлече максималната дисперсия.
  2. 2. Изчислете собствените вектори, които са основните компоненти на набора от данни и ги съберете в проекционна матрица.
  3. 3. Всеки от собствените вектори е асоцииран със собствената стойност, която е величини.
  4. 4. Намалете набора от данни в подпространство с по-малко измерение, като премахнете по-малко информативните собствени двойки.

PCA намира линия в зависимост от два критерия:

  1. Вариацията на стойностите трябва да бъде максимална по тази линия.

2. Грешката трябва да е минимална, ако не възстановите оригиналните две позиции на синя точка от новата позиция на червената точка.

Първи принципен компонент:

Първият основен компонент (PC1) е посоката на максималната дисперсия и се получава чрез решаване на собствения вектор.

Намиране на PC1 :

PC1 (математически) : a1x1 + a2x2 + a3x3 +………………+anxn

Ограничение: a1^2 + a2^2 + a3^2 + ……………………………..+ak^2

Собствено разлагане за решаване на уравнението.

ЗАБЕЛЕЖКА : Собственото разлагане е факторизиране на матрицата в канонична форма, където матрицата е представена чрез собствени вектори или собствени стойности.

Собствени стойности и PCA. :

Собствените стойности са вариациите на главния компонент, подредени в низходящ ред.

Обобщение на PCA процеса:

  1. Стандартизирайте данните PCA : Изисква входните променливи да имат сходни мащаби на измерването.

2. Изградете корелационната матрица: Това обобщава как вашите променливи се отнасят една към друга.

3. Получете собствената стойност и собствения вектор от корелационната матрица: Разбийте матрицата по посока и големина. Сортирайте собствените стойности в низходящ ред и изберете собствени вектори, които съответстват на най-голямата собствена стойност.

4. Конструирайте проекционната матрица от избран собствен вектор: Намалете набора от данни, като изпуснете по-малко информативни собствени двойки.

5. Трансформирайте оригиналния набор от данни, за да получите kk-измерно функционално подпространство: Компресирайте вашите данни в по-малко пространство, като изключите по-малко важните посоки.