Какво е факторен анализ в машинното обучение

Факторен анализ в машинното обучение:

Редуцирайте голям брой променливи в по-малък брой фактори.

2. Поставя максимална обща дисперсия в общ резултат.

3. Асоциира множество наблюдавани променливи с латентна променлива.

4. Има еднакъв брой фактори и променливи, като всеки фактор съдържа определено количество обща дисперсия.

Собствена стойност: Мярка за дисперсията, която даден фактор обяснява за наблюдаваните променливи. Фактор със собствена стойност ‹ 1 обяснява по-малко дисперсия от единична наблюдавана стойност.

Процес на факторен анализ:

Анализ на основните компоненти (PCA)

Извлечете скрития фактор от набора от данни.

Дефинира данни, използвайки по-малък брой компоненти, обяснявайки дисперсията във вашите данни

Намалете сложността на изчисленията.

Определете, че новите данни са част от групата точки от данни от набора за обучение.

Линеен дискриминантен анализ (LDA)

Намалява размерите.

Търсете линейната комбинация от променливи, която най-добре разделя два класа.

Намалете степента на пренастройване.

Определете как да класифицирате новото наблюдение извън група класове.

Посока на максималната дисперсия:

PCA търси линейната комбинация от променливи, за да извлече максималната дисперсия.
2. Изчислете собствените вектори, които са основните компоненти на набора от данни и ги съберете в проекционна матрица.
3. Всеки от собствените вектори е асоцииран със собствената стойност, която е величини.
4. Намалете набора от данни в подпространство с по-малко измерение, като премахнете по-малко информативните собствени двойки.

PCA намира линия в зависимост от два критерия:

Вариацията на стойностите трябва да бъде максимална по тази линия.

2. Грешката трябва да е минимална, ако не възстановите оригиналните две позиции на синя точка от новата позиция на червената точка.

Първи принципен компонент:

Първият основен компонент (PC1) е посоката на максималната дисперсия и се получава чрез решаване на собствения вектор.

Намиране на PC1 :

PC1 (математически) : a1x1 + a2x2 + a3x3 +………………+anxn

Ограничение: a1^2 + a2^2 + a3^2 + ……………………………..+ak^2

Собствено разлагане за решаване на уравнението.

ЗАБЕЛЕЖКА : Собственото разлагане е факторизиране на матрицата в канонична форма, където матрицата е представена чрез собствени вектори или собствени стойности.

Собствени стойности и PCA. :

Собствените стойности са вариациите на главния компонент, подредени в низходящ ред.

Обобщение на PCA процеса:

Стандартизирайте данните PCA : Изисква входните променливи да имат сходни мащаби на измерването.

2. Изградете корелационната матрица: Това обобщава как вашите променливи се отнасят една към друга.

3. Получете собствената стойност и собствения вектор от корелационната матрица: Разбийте матрицата по посока и големина. Сортирайте собствените стойности в низходящ ред и изберете собствени вектори, които съответстват на най-голямата собствена стойност.

4. Конструирайте проекционната матрица от избран собствен вектор: Намалете набора от данни, като изпуснете по-малко информативни собствени двойки.

5. Трансформирайте оригиналния набор от данни, за да получите kk-измерно функционално подпространство: Компресирайте вашите данни в по-малко пространство, като изключите по-малко важните посоки.

Какво е факторен анализ в машинното обучение

Процес на факторен анализ:

Подобни въпроси