Факторен анализ в машинното обучение:
- Редуцирайте голям брой променливи в по-малък брой фактори.
2. Поставя максимална обща дисперсия в общ резултат.
3. Асоциира множество наблюдавани променливи с латентна променлива.
4. Има еднакъв брой фактори и променливи, като всеки фактор съдържа определено количество обща дисперсия.
Собствена стойност: Мярка за дисперсията, която даден фактор обяснява за наблюдаваните променливи. Фактор със собствена стойност ‹ 1 обяснява по-малко дисперсия от единична наблюдавана стойност.
Процес на факторен анализ:
- Анализ на основните компоненти (PCA)
Извлечете скрития фактор от набора от данни.
Дефинира данни, използвайки по-малък брой компоненти, обяснявайки дисперсията във вашите данни
Намалете сложността на изчисленията.
Определете, че новите данни са част от групата точки от данни от набора за обучение.
- Линеен дискриминантен анализ (LDA)
Намалява размерите.
Търсете линейната комбинация от променливи, която най-добре разделя два класа.
Намалете степента на пренастройване.
Определете как да класифицирате новото наблюдение извън група класове.
Посока на максималната дисперсия:
- PCA търси линейната комбинация от променливи, за да извлече максималната дисперсия.
- 2. Изчислете собствените вектори, които са основните компоненти на набора от данни и ги съберете в проекционна матрица.
- 3. Всеки от собствените вектори е асоцииран със собствената стойност, която е величини.
- 4. Намалете набора от данни в подпространство с по-малко измерение, като премахнете по-малко информативните собствени двойки.
PCA намира линия в зависимост от два критерия:
- Вариацията на стойностите трябва да бъде максимална по тази линия.
2. Грешката трябва да е минимална, ако не възстановите оригиналните две позиции на синя точка от новата позиция на червената точка.
Първи принципен компонент:
Първият основен компонент (PC1) е посоката на максималната дисперсия и се получава чрез решаване на собствения вектор.
Намиране на PC1 :
PC1 (математически) : a1x1 + a2x2 + a3x3 +………………+anxn
Ограничение: a1^2 + a2^2 + a3^2 + ……………………………..+ak^2
Собствено разлагане за решаване на уравнението.
ЗАБЕЛЕЖКА : Собственото разлагане е факторизиране на матрицата в канонична форма, където матрицата е представена чрез собствени вектори или собствени стойности.
Собствени стойности и PCA. :
Собствените стойности са вариациите на главния компонент, подредени в низходящ ред.
Обобщение на PCA процеса:
- Стандартизирайте данните PCA : Изисква входните променливи да имат сходни мащаби на измерването.
2. Изградете корелационната матрица: Това обобщава как вашите променливи се отнасят една към друга.
3. Получете собствената стойност и собствения вектор от корелационната матрица: Разбийте матрицата по посока и големина. Сортирайте собствените стойности в низходящ ред и изберете собствени вектори, които съответстват на най-голямата собствена стойност.
4. Конструирайте проекционната матрица от избран собствен вектор: Намалете набора от данни, като изпуснете по-малко информативни собствени двойки.
5. Трансформирайте оригиналния набор от данни, за да получите kk-измерно функционално подпространство: Компресирайте вашите данни в по-малко пространство, като изключите по-малко важните посоки.