Линейная регрессия — это не просто строительный блок; это краеугольный камень, на котором мы строим наше понимание более сложных моделей. Это фундаментальный метод машинного обучения, который использует прямолинейные отношения для прогнозирования результатов.

Понимание регрессии: краткий обзор

Регрессионный анализ – это статистический метод, целью которого является моделирование связи между одной или несколькими независимыми переменными (часто называемыми предикторами или признаками) и зависимой переменной (переменной результата или отклика). Цель состоит в том, чтобы найти математическое уравнение, которое лучше всего описывает эту взаимосвязь, что позволит нам делать прогнозы.

Линейная регрессия – это тип регрессионного анализа, используемый в статистике и машинном обучении, целью которого является моделирование связи между одной или несколькими независимыми переменными и зависимой переменной путем подбора линейного уравнения к данным, что позволяет нам делать прогнозы и понимать силу и направление взаимосвязи между переменными. Обычно существует два типа линейной регрессии:

Простая линейная регрессия: использует одну независимую переменную для прогнозирования зависимой переменной.

Множественная линейная регрессия: использует более одной независимой переменной для прогнозирования зависимой переменной.

Простая линейная регрессия

Ось X представляет значения независимой переменной, аналогично оси Y представляет зависимую переменную. Как вы можете видеть на графике, зеленые точки соответствуют фактической зависимой переменной y для независимой переменной x. Теперь наша цель состоит в том, чтобы подобрать линию линейной регрессии, которая может проходить через или проходить рядом с нашими зелеными точками.

т. е. Основная цель состоит в том, чтобы найти наиболее подходящую линию с соответствующими значениями наклона и точки пересечения, которая может дать минимальную остаточную ошибку, чтобы прогнозы были как можно ближе к фактическим значениям.

Как видите, есть несколько зеленых точек, которые не попадают на красную линию нашего предиктора. В этом случае возникает ошибка. Эти ошибки суммируются, чтобы повлиять на точность модели.

Таким образом, чем больше связь между зависимой и независимой переменной, тем выше точность линейной модели. то есть чем ближе точки к линии, тем выше точность.

Как видно из формулы, фактическое значение зависимой переменной вычисляется по линейному уравнению, дополненному остаточной ошибкой. Если мы хотим найти прогнозируемую зависимую переменную (т. е. y_predicted), формула та же самая, но без добавления к ней члена ошибки.

В простой линейной регрессии легче найти наклон. Поскольку существует только одна зависимая переменная, необходимо вычислить только один наклон. Формула наклона дается путем умножения корреляции зависимой и независимой переменных на отношение ее стандартного отклонения.

Просто поменяв местами уравнение, перенеся точку пересечения в LHS, мы сможем найти точку пересечения.

Множественная линейная регрессия

Как видите, есть много независимых переменных (x1, x2, … xn), чтобы найти одну зависимую переменную y. Где beta_1, beta_2…, beta_n — соответствующие значения наклона.

В наших следующих блогах мы расскажем о градиентном спуске, функции стоимости, метриках оценки и многом другом.