Частичные наименьшие квадраты (PLS): укрощение многомерных данных и захват сложных отношений

Регрессия с частичными наименьшими квадратами (PLS) — это многомерный статистический метод, используемый для моделирования взаимосвязей между переменными-предикторами (X) и переменной отклика (Y).

Это особенно полезно при работе с наборами данных с высокой размерностью, мультиколлинеарностью или зашумленными переменными. PLS стремится найти набор скрытых переменных, называемых компонентами, которые собирают наиболее важную информацию как из X, так и из Y.

Математика регрессии PLS:

Давайте рассмотрим сценарий с N наблюдениями и p переменными-предикторами (атрибутами) в X и одной переменной ответа Y. PLS строит набор ортогональных компонентов, которые представляют собой линейные комбинации исходных переменных-предикторов:

  1. Вычисление весов: PLS начинает с поиска вектора весов wk​, который максимизирует ковариацию между X и Y. Это достигается за счет итераций обновления веса.
  2. Расчет баллов. После определения wk​ баллы tk​ рассчитываются путем проецирования X на неделя​.
  3. Вычисление невязки: рассчитываются остатки Ek​ (ошибка) между Y и оценками tk​.
  4. Вычисление вектора нагрузки. Вектор нагрузки ck​ рассчитывается путем регрессии остатков Ek​ на X.
  5. Обновить вектор весов: вектор весов wk​ обновляется путем регрессии невязок Ek​ на векторе нагрузки ck. .

Процесс вычисления компонентов, оценок и остатков повторяется многократно для получения дополнительных компонентов.

Преимущества регрессии PLS:

  1. Работа с коллинеарностью: PLS может эффективно обрабатывать мультиколлинеарность среди переменных-предикторов, что делает его пригодным для многомерных наборов данных.
  2. Шумоподавление: PLS фокусируется на улавливании общей дисперсии между X и Y, что может помочь уменьшить влияние зашумленных переменных.
  3. Уменьшение размерности: PLS уменьшает размерность данных за счет создания меньшего набора компонентов, что может улучшить интерпретируемость модели.

Недостатки PLS-регрессии: