Наименьшие квадраты: подход к прогнозированию для линейных моделей

Как разработчики машинного обучения (за исключением профессиональных разработчиков и включая студентов, которые спешат разрабатывать модели машинного обучения), мы все создаем различные надежные модели, такие как XGBoost, Catboost и т. д. Тем не менее, нам нужно знать математику, лежащую в основе этих моделей. Итак, я пытаюсь изучить и поделиться математикой, стоящей за ними, и начать с нуля. Человек является постоянным учеником Reinforcemet, поэтому я могу делать ошибки в объяснениях, поэтому нужна ваша помощь, чтобы исправить себя, чтобы больше статей попадало в ваш почтовый ящик. Приятного обучения 😀…..

Обозначения.Прежде чем углубиться, нам нужно знать некоторые обозначения, чтобы двигаться дальше: обычно мы будем обозначать входную переменную (признак или признаки) символом X. Если X — вектор, его компоненты могут быть доступ к которым осуществляется с помощью индексов Xj. Количественные результаты (прогнозируемые результаты) будут обозначаться Y., а качественные результаты - G (для группы). Мы используем прописные буквы, такие как X, Y или G, когда говорим об общих аспектах переменной. Матрицы представлены жирными прописными буквами; например, набор из N входных p-векторов xi, i = 1,…, N будет представлен матрицей N × p X. X - T обозначает транспонирование X

Примечание. Обозначения очень важны для понимания приведенных ниже математических форм, которые объясняются ниже.

В этой статье мы разрабатываем простой метод прогнозирования, который кажется мощным 🙌

Я попытаюсь объяснить один из методов прогнозирования результата (то есть качественный или количественный), используя основы дифференциации и другие темы. Линейная модель делает огромные предположения о структуре и дает стабильные, но, возможно, неточные прогнозы.

Линейные модели используются в сфере статистики и машинного обучения уже 3 десятилетия и остаются одним из наших самых важных инструментов для моделирования. давайте оставим повествование в стороне и перейдем к теме.

Учитывая вектор входов XT = (X1, X2,…, XP), мы прогнозируем выход Y с помощью модели.

Термин βˆ0 является точкой пересечения, также известной как смещение в машинном обучении. Часто бывает удобно включить постоянную переменную 1 в X, включить βˆ0 в вектор коэффициентов βˆ, а затем записать линейную модель в векторной форме в виде скалярного произведения.

где X — T обозначает транспонирование вектора или матрицы (X — вектор-столбец). Здесь мы моделируем один выход, поэтому Yˆ является скаляром. если мы рассмотрим Y как многозначный, то Y станет вектором формы (K). в этом случае β будет матрицей коэффициентов размера p × K.

В (p + 1)-мерном пространстве ввода-вывода (X, Yˆ) представляет собой гиперплоскость. С этого момента считаем, что точка пересечения входит в β

Рассматриваемый как функция над p-мерным входным пространством, f(X) = X — T β является линейным, а градиент f'(x) = β является вектором во входном пространстве, который указывает в самом крутом направлении вверх.

Как мы можем подогнать линейную модель к набору обучающих данных?

Существует множество различных методов, но, безусловно, самым популярным является метод наименьших квадратов. В этом подходе мы выбираем коэффициенты β, чтобы минимизировать остаточную сумму квадратов.

RSS(β) является квадратичной функцией параметров, поэтому ее минимум всегда существует, но может быть не единственным. Решение проще всего охарактеризовать в матричной записи. Мы можем написать уравнение ниже

где X — это матрица размера N × p, каждая строка которой является входным вектором, а y — это N-вектор выходов в обучающем наборе. Дифференциация с.р.т. β получаем нормальные уравнения

Если X — Т X неособо, то единственное решение дается формулой

Я объясню этот подход на примере в следующем блоге, и мне нужна ваша поддержка в виде обмена вашими мыслями о моем письме и объяснениях. У меня есть несколько вопросов об этом блоге, и я надеюсь, что читатели ответят на них. Я упомянул создание этого контента из одной из моих книг, и у меня есть некоторые сомнения.

Мои вопросы и мысли

Почему мы должны включать константу (1) в вектор X?
В том числе и эта константа произвела изменение размерности пространства (т. е. (p+1))?
Может ли кто-нибудь сделать визуализацию отношения между X, y и β, чтобы обычно было легко смотреть визуально?

Рад помочь всем читателям, с которыми вы можете связаться со мной на Linkedin.

Наименьшие квадраты: подход к прогнозированию для линейных моделей

Похожие вопросы