Частичные наименьшие квадраты (PLS): укрощение многомерных данных и захват сложных отношений
Регрессия с частичными наименьшими квадратами (PLS) — это многомерный статистический метод, используемый для моделирования взаимосвязей между переменными-предикторами (X) и переменной отклика (Y).
Это особенно полезно при работе с наборами данных с высокой размерностью, мультиколлинеарностью или зашумленными переменными. PLS стремится найти набор скрытых переменных, называемых компонентами, которые собирают наиболее важную информацию как из X, так и из Y.
Математика регрессии PLS:
Давайте рассмотрим сценарий с N наблюдениями и p переменными-предикторами (атрибутами) в X и одной переменной ответа Y. PLS строит набор ортогональных компонентов, которые представляют собой линейные комбинации исходных переменных-предикторов:
- Вычисление весов: PLS начинает с поиска вектора весов wk, который максимизирует ковариацию между X и Y. Это достигается за счет итераций обновления веса.
- Расчет баллов. После определения wk баллы tk рассчитываются путем проецирования X на неделя.
- Вычисление невязки: рассчитываются остатки Ek (ошибка) между Y и оценками tk.
- Вычисление вектора нагрузки. Вектор нагрузки ck рассчитывается путем регрессии остатков Ek на X.
- Обновить вектор весов: вектор весов wk обновляется путем регрессии невязок Ek на векторе нагрузки ck. .
Процесс вычисления компонентов, оценок и остатков повторяется многократно для получения дополнительных компонентов.
Преимущества регрессии PLS:
- Работа с коллинеарностью: PLS может эффективно обрабатывать мультиколлинеарность среди переменных-предикторов, что делает его пригодным для многомерных наборов данных.
- Шумоподавление: PLS фокусируется на улавливании общей дисперсии между X и Y, что может помочь уменьшить влияние зашумленных переменных.
- Уменьшение размерности: PLS уменьшает размерность данных за счет создания меньшего набора компонентов, что может улучшить интерпретируемость модели.