Частичные наименьшие квадраты (PLS): укрощение многомерных данных и захват сложных отношений

Регрессия с частичными наименьшими квадратами (PLS) — это многомерный статистический метод, используемый для моделирования взаимосвязей между переменными-предикторами (X) и переменной отклика (Y).

Это особенно полезно при работе с наборами данных с высокой размерностью, мультиколлинеарностью или зашумленными переменными. PLS стремится найти набор скрытых переменных, называемых компонентами, которые собирают наиболее важную информацию как из X, так и из Y.

Математика регрессии PLS:

Давайте рассмотрим сценарий с N наблюдениями и p переменными-предикторами (атрибутами) в X и одной переменной ответа Y. PLS строит набор ортогональных компонентов, которые представляют собой линейные комбинации исходных переменных-предикторов:

Вычисление весов: PLS начинает с поиска вектора весов wk, который максимизирует ковариацию между X и Y. Это достигается за счет итераций обновления веса.
Расчет баллов. После определения wk баллы tk рассчитываются путем проецирования X на неделя.
Вычисление невязки: рассчитываются остатки Ek (ошибка) между Y и оценками tk.
Вычисление вектора нагрузки. Вектор нагрузки ck рассчитывается путем регрессии остатков Ek на X.
Обновить вектор весов: вектор весов wk обновляется путем регрессии невязок Ek на векторе нагрузки ck. .

Процесс вычисления компонентов, оценок и остатков повторяется многократно для получения дополнительных компонентов.

Преимущества регрессии PLS:

Работа с коллинеарностью: PLS может эффективно обрабатывать мультиколлинеарность среди переменных-предикторов, что делает его пригодным для многомерных наборов данных.
Шумоподавление: PLS фокусируется на улавливании общей дисперсии между X и Y, что может помочь уменьшить влияние зашумленных переменных.
Уменьшение размерности: PLS уменьшает размерность данных за счет создания меньшего набора компонентов, что может улучшить интерпретируемость модели.

Частичные наименьшие квадраты (PLS): укрощение многомерных данных и захват сложных отношений