Частични най-малки квадрати (PLS): Укротяване на високомерни данни и улавяне на сложни връзки

Частичната регресия на най-малките квадрати (PLS) е многовариантна статистическа техника, използвана за моделиране на връзките между предикторни променливи (X) и променлива на отговор (Y).

Това е особено полезно, когато се работи с набори от данни, които имат висока размерност, мултиколинеарност или шумни променливи. PLS има за цел да намери набор от латентни променливи, наречени компоненти, които улавят най-важната информация от X и Y.

Математика на PLS регресията:

Нека разгледаме сценарий с N наблюдения и p предикторни променливи (атрибути) в X и една променлива на отговор Y. PLS конструира набор от ортогонални компоненти, които са линейни комбинации на оригиналните предикторни променливи:

  1. Изчисляване на тегла: PLS започва с намиране на вектор на тегло wk​, който максимизира ковариацията между X и Y. Това се постига чрез повторения на актуализации на теглото.
  2. Изчисляване на резултати: След като се определи wk​, резултатите tk​ се изчисляват чрез проектиране на X върху седмица​.
  3. Изчисляване на остатъка: Изчисляват се остатъците Ek​ (грешка) между Y и резултатите tk​.
  4. Изчисляване на зареждащ вектор: Зареждащият вектор ck​ се изчислява чрез регресия на остатъците Ek​ върху X.
  5. Актуализиране на вектора на теглото: Векторът на теглото wk​ се актуализира чрез регресия на остатъците Ek​ върху вектора на натоварване ck .

Процесът на изчисляване на компоненти, резултати и остатъци се повтаря итеративно, за да се получат допълнителни компоненти.

Предимства на PLS регресията:

  1. Справяне с колинеарността: PLS може ефективно да се справи с мултиколинеарността сред променливите за прогнозиране, което го прави подходящ за масиви от данни с висока размерност.
  2. Намаляване на шума: PLS се фокусира върху улавянето на общата разлика между X и Y, което може да помогне за намаляване на въздействието на шумните променливи.
  3. Намаляване на размерността: PLS намалява размерността на данните чрез създаване на по-малък набор от компоненти, което може да подобри интерпретируемостта на модела.

Недостатъци на PLS регресията: