Линейная регрессия: математическая интуиция

С самого начала своего пути специалиста по данным вы привыкли к этому алгоритму машинного обучения. Линейная регрессия, поскольку это основной и главный алгоритм машинного обучения, с которого мы обычно начинаем анализировать различные проблемы регрессии.

Как говорит слово linear, линейная связь между входными переменными (x) и зависимой выходной переменной (y). В основном анализ линейной регрессии выполняет задачу прогнозирования выходной переменной путем моделирования или поиска взаимосвязей между независимыми переменными (x). И подход к поиску наилучшего результата заключается в подгонке прогнозируемой линии к линии наилучшего соответствия. Линейная регрессия следует линейному пути, скажем:

где theta_0 определяет точку пересечения, а theta_1 — наклон линейного вычисления. Теперь предположим, что это гипотеза, поэтому для получения наилучшей линии соответствия прогнозируемые значения должны быть ближе к этой линии. Следовательно, чтобы найти минимальное расстояние, мы будем использовать другое уравнение, которое определит разницу между реальной точкой и прогнозируемой точкой, известную как Функция стоимости.

Теперь это суммирование остатков повторяется для всех значений от i=1 до n значений. Значение 1/2m, умноженное на отмену константы, полученной за счет производной квадратов значений невязок. Все это уравнение называется Функция квадрата ошибки.

Что нам нужно решить?

Всю эту квадратичную функцию ошибки необходимо минимизировать, регулируя параметры θ0 и θ1.

Давайте теперь возьмем пример, где точка пересечения рассматривается как ноль (θ0 = 0). Следовательно, гипотеза принимает вид h(x)=θ1(x). Мы найдем функцию стоимости для каждого значения x и θ1. Скажем, θ1=1,0,5,0. Сохраняя линию наилучшего соответствия по трем точкам данных x и y, (x, y) = (1,1), (2,2), (3,3).

i) При θ1=1, применяя h(x)=θ1(x), для x=1,y=1; х=2,у=2;х=3,у=3. Расчет функции стоимости J(θ1): 1/2m[(1–1)² +(2–2)² +(3–3)²] =0. Это показывает, что предсказанная линия находится на линии h(x).

ii) при θ1=0,5, применяя h(x)=θ1(x), для x=1, y=0,5; х=2,у=1;х=3,у=1,5. Расчет функции стоимости J(θ1): 1/2m[(1–0,5)² +(2–1)² +(3–1,5)²] =0,58. Это показывает прогнозируемую линию ниже, чем линия h (x) (уменьшенный наклон).

iii) При θ1=0, применяя h(x)=θ1(x), для x=1,y=0; х=2,у=0;х=3,у=0. Расчет функции стоимости J(θ1): 1/2m[(1–0)² +(2–0)² +(3–0)²] =2,3. Это показывает, что предсказанная линия лежит на оси x со всеми нулевыми значениями y.

Точно так же мы можем найти несколько значений x и y и найти функцию стоимости. При отображении функции стоимости на графике мы получаем следующее:

Эта кривая известна как градиентный спуск. Если мы внимательно посмотрим на эти два графика, то увидим, что на θ1=1 у нас есть линия наилучшего соответствия, которая перекрывается с h(x), а также мы получаем глобальные минимумы в этой точке, т.е. θ1=1,J(θ1)=0 . Итак, наша цель — достичь глобальных минимумов, определив значения θ1. Но это займет довольно много времени, перебирая все значения. Для упрощения возьмем некоторые значения и применим теорему о сходимости. Этот алгоритм сходимости говорит, что он будет повторяться до сходимости, и его можно сформулировать так:

Это определит глобальные минимумы по значению производной и альфа-значению. Возьмем значение J(θ0,θ1)=(2.3,2), оно расположится на правой кривой градиентного спуска. Чтобы спуститься к J(θ0,θ1)=(1,0), он будет двигаться в отрицательном направлении из-за положительного наклона производной, т.е. θj=θj-λ(+ve). Точно так же, если взять точку J(θ0,θ1)=(0,2.3), она будет слева, поэтому будет иметь отрицательный наклон. Он будет двигаться в положительном направлении, то есть θj=θj-λ(-ve) или θj=θj+λ(+ve). Помимо этого, скорость обучения (λ) также имеет большое значение для теории сходимости. Это скорость, с которой алгоритм достигает глобальных минимумов. Обычно мы принимаем скорость обучения равной 0,01, она будет постепенно приближаться к глобальному минимуму.

Если мы возьмем гораздо меньшее значение λ, потребуется огромное время для достижения глобальных минимумов, опять же, если λ взять большим, оно будет прыгать то здесь, то там и не сможет достичь глобальных минимумов. Этот алгоритм теоремы сходимости лучше назвать алгоритмом градиентного спуска.

Показатели производительности: насколько хороша наша модель по отношению к алгоритму линейной регрессии.

i) R-квадрат: 1-(сумма остатков)/(сумма итогов).

y^ - прогнозируемое значение, y- - среднее значение y

ii) Скорректированный R-квадрат: 1- [(1-R²)(N-1)/(N-P-1)]

P - количество предикторов или признаков. N - количество точек данных.

Для задачи с высокой коллинеарностью r² будет выше. Это в основном превышает значение, поэтому мы получаем более высокое значение r². Где из-за уменьшения значения знаменателя скорректированного r² значение будет уменьшаться при увеличении значения r². По этой причине в основном предпочтительнее скорректированный r², поскольку он позволяет избежать переобучения.

Некоторые предположения при анализе с помощью линейной регрессии:

i) Линейность. Точки данных должны быть линейно распределены со средним значением Y.

ii)Гомоседативность: дисперсия остатков должна быть одинаковой или близкой для любого значения X.

iii)Неколлинеарность: точки данных не должны быть коллинеарны. Они должны быть независимы друг от друга.

iv) Нормальность: для любого фиксированного значения X выходные данные или y распределяются нормально.

Заключение. Я надеюсь, что блог поможет учащимся лучше понять концепции линейной регрессии. Также не забудьте изучить ссылки для лучшего охвата.

i)https://www.youtube.com/watch?v=4UJelID_ICw&t=1s&ab_channel=KrishNaik

ii) https://www.geeksforgeeks.org/ml-linear-regression/

iii)https://en.wikipedia.org/wiki/Линейная_регрессия

iv)https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

Линейная регрессия: математическая интуиция

Показатели производительности: насколько хороша наша модель по отношению к алгоритму линейной регрессии.

Похожие вопросы