Линейная регрессия 101

Что означает то, что написано выше?

Хорошо… выслушай меня!

То, чему вы научились в школе… не бесполезно!

Возможно, это было спорным утверждением, поскольку большинство учеников любят обвинять школы в том, что они учат нас «бесполезной математике», а не «налогам и тому, как стать квадриллионером за неделю». Но это правда.

Поскольку я все больше и больше изучаю область машинного обучения, я впервые в жизни благодарю то, чему научился в школе!

Одной из таких вещей, в понимании которой мне помогла школа, была линейная регрессия.

Вы можете подумать: «Что? Когда в школе преподавали линейную регрессию?». Какой… вполне правильный вопрос. Нас учили не «линейной регрессии», а уравнению прямой линии.

Если вы понимаете, что означает y = mx + b, вы уже на полпути к пониманию того, что такое линейная регрессия.

Линейная регрессия — это не что иное, как проведение прямой линии через набор данных для прогнозирования новых значений.

Ага! Вот и все! Это все, что нужно для понимания того, что делает линейная регрессия. Это еще один из тех «причудливо звучащих терминов, которые на самом деле довольно просты».

Линейная регрессия входит в состав регрессионныхалгоритмов и является самым простым из них. Но не стоит недооценивать его только потому, что он базовый.

Линейная регрессия бывает двух видов: ванильная и ириска.

Я имею в виду простую линейную регрессию и множественную линейную регрессию.

Особенности линейной регрессии

Как я уже говорил выше, линейная регрессия бывает двух видов: простая линейная регрессия и множественная линейная регрессия. Давайте разберем их по очереди и поймем, чем они отличаются.

Простая линейная регрессия

Как следует из названия, простая линейная регрессия является более простой из двух разновидностей.

Он называется «простым», потому что использует только одну переменную для прогнозирования новых результатов.

Приведенное выше уравнение является уравнением для простой линейной регрессии. Если вы внимательно присмотритесь, то не увидите особых отличий от уравнения на изображении 1.Единственное изменение здесь — это имена переменных.

c (пересечение) изменено на beta_0, а m (наклон) изменено на бета_1.

x1 – это основная переменная, которую мы будем использовать для прогнозирования y, а beta_1 – наклон линии, построенной путем построения графика >x1 против y.

Множественная линейная регрессия

Как следует из названия, этот вариант использует несколько переменных для прогнозирования новых значений.

Приведенное выше уравнение является уравнением для множественной линейной регрессии. Если вы присмотритесь, то не заметите особых отличий от уравнения на изображении 3.Единственное изменение состоит в том, что в уравнение добавлено еще несколько терминов.

x1, x2, x3,и т. д. — это все переменные, которые мы будем использовать для прогнозирования y и beta_1, beta_2, beta_3,и т. д. — это наклон линии, построенной путем построения графика этих переменныхв зависимости от y.

(Он серьезно скопировал описание простой линейной регрессии, внес несколько изменений и вставил их сюда?)

(Да… он это сделал!)

Как рассчитать бета?

Теперь, когда вы знаете уравнения для обоих вкусов, у вас может возникнуть вопрос: «Как рассчитать эти бета-версии?».

Что ж, пристегнитесь, Бакару, потому что мы отправимся в путешествие на американских горках для расчета этих бета-коэффициентов.

В этой поездке вы узнаете о таких методах, как OLS (Обычные наименьшие квадраты) и Градиентный спуск.

(Если вы хотите узнать, что такое градиентный спуск, нажмите здесь. Этот парень написал довольно крутую статью, поэтому я хотел бы, чтобы он получил несколько впечатлений…)

Источники —

Изображение 1-https://cdn.kastatic.org/googleusercontent/ovqBFMBrGMZ1PfJ6XMADhigWzTDP5AaEmaEIAnNKjwiOlLuGd46fET8QeRqB9LZ9XVpvoX85lbz0YIYsV-98UTCs
Изображение 2- https://i2.wp.com/miro.medium.com/max/1400/1*Cw5ZSYDkIFpmhBwr-hN84A.png
Изображение 3- Сделано автором с помощью этого сайта.
Изображение 4- Сделано автором с помощью этого сайта.