Частични най-малки квадрати (PLS): Укротяване на високомерни данни и улавяне на сложни връзки
Частичната регресия на най-малките квадрати (PLS) е многовариантна статистическа техника, използвана за моделиране на връзките между предикторни променливи (X) и променлива на отговор (Y).
Това е особено полезно, когато се работи с набори от данни, които имат висока размерност, мултиколинеарност или шумни променливи. PLS има за цел да намери набор от латентни променливи, наречени компоненти, които улавят най-важната информация от X и Y.
Математика на PLS регресията:
Нека разгледаме сценарий с N наблюдения и p предикторни променливи (атрибути) в X и една променлива на отговор Y. PLS конструира набор от ортогонални компоненти, които са линейни комбинации на оригиналните предикторни променливи:
- Изчисляване на тегла: PLS започва с намиране на вектор на тегло wk, който максимизира ковариацията между X и Y. Това се постига чрез повторения на актуализации на теглото.
- Изчисляване на резултати: След като се определи wk, резултатите tk се изчисляват чрез проектиране на X върху седмица.
- Изчисляване на остатъка: Изчисляват се остатъците Ek (грешка) между Y и резултатите tk.
- Изчисляване на зареждащ вектор: Зареждащият вектор ck се изчислява чрез регресия на остатъците Ek върху X.
- Актуализиране на вектора на теглото: Векторът на теглото wk се актуализира чрез регресия на остатъците Ek върху вектора на натоварване ck .
Процесът на изчисляване на компоненти, резултати и остатъци се повтаря итеративно, за да се получат допълнителни компоненти.
Предимства на PLS регресията:
- Справяне с колинеарността: PLS може ефективно да се справи с мултиколинеарността сред променливите за прогнозиране, което го прави подходящ за масиви от данни с висока размерност.
- Намаляване на шума: PLS се фокусира върху улавянето на общата разлика между X и Y, което може да помогне за намаляване на въздействието на шумните променливи.
- Намаляване на размерността: PLS намалява размерността на данните чрез създаване на по-малък набор от компоненти, което може да подобри интерпретируемостта на модела.