Частични най-малки квадрати (PLS): Укротяване на високомерни данни и улавяне на сложни връзки

Частичната регресия на най-малките квадрати (PLS) е многовариантна статистическа техника, използвана за моделиране на връзките между предикторни променливи (X) и променлива на отговор (Y).

Това е особено полезно, когато се работи с набори от данни, които имат висока размерност, мултиколинеарност или шумни променливи. PLS има за цел да намери набор от латентни променливи, наречени компоненти, които улавят най-важната информация от X и Y.

Математика на PLS регресията:

Нека разгледаме сценарий с N наблюдения и p предикторни променливи (атрибути) в X и една променлива на отговор Y. PLS конструира набор от ортогонални компоненти, които са линейни комбинации на оригиналните предикторни променливи:

Изчисляване на тегла: PLS започва с намиране на вектор на тегло wk, който максимизира ковариацията между X и Y. Това се постига чрез повторения на актуализации на теглото.
Изчисляване на резултати: След като се определи wk, резултатите tk се изчисляват чрез проектиране на X върху седмица.
Изчисляване на остатъка: Изчисляват се остатъците Ek (грешка) между Y и резултатите tk.
Изчисляване на зареждащ вектор: Зареждащият вектор ck се изчислява чрез регресия на остатъците Ek върху X.
Актуализиране на вектора на теглото: Векторът на теглото wk се актуализира чрез регресия на остатъците Ek върху вектора на натоварване ck .

Процесът на изчисляване на компоненти, резултати и остатъци се повтаря итеративно, за да се получат допълнителни компоненти.

Предимства на PLS регресията:

Справяне с колинеарността: PLS може ефективно да се справи с мултиколинеарността сред променливите за прогнозиране, което го прави подходящ за масиви от данни с висока размерност.
Намаляване на шума: PLS се фокусира върху улавянето на общата разлика между X и Y, което може да помогне за намаляване на въздействието на шумните променливи.
Намаляване на размерността: PLS намалява размерността на данните чрез създаване на по-малък набор от компоненти, което може да подобри интерпретируемостта на модела.

Частични най-малки квадрати (PLS): Укротяване на високомерни данни и улавяне на сложни връзки