Понимание регуляризации лассо и хребта в машинном обучении

При использовании алгоритмов обучения с учителем на наборе данных в машинном обучении будут случаи, когда модель очень хорошо работает на данных поезда, но может не работать хорошо, а также может иметь высокий уровень ошибок при тестировании на новых данных. В этом виноваты многочисленные факторы, в том числе коллинеарность, декомпозиция смещения-дисперсии и чрезмерное моделирование данных поездов.

В этой статье мы рассмотрим два разных типа методов регуляризации: лассо и гребенчатая регуляризация. Кроме того, мы обсудим смещение, вариацию, недообучение и переоснащение.

Что такое регуляризация?

Регуляризация — это один из методов повышения способности нашей модели работать с ненаблюдаемыми данными путем отбрасывания менее значимых характеристик. Он стремится повысить точность модели при минимальных потерях проверки. Наказывая модель большой дисперсией и уменьшая бета-коэффициенты до нуля, это предотвращает переоснащение. Недообучение и переоснащение

Предвзятость и дисперсия

Предвзятость

Лежащие в основе предположения, которые данные используют для упрощения целевой функции, известны как систематические ошибки. Действительно, предвзятость делает данные более обобщаемыми, а модель менее чувствительной к изолированным точкам данных. Поскольку желаемая функция менее сложна, она также сокращает время обучения. Высокое смещение указывает на то, что целевая функция считается более надежной. Иногда это приводит к неподгонке модели.
Алгоритмы линейной регрессии и логистической регрессии являются примерами алгоритмов с высокой погрешностью.

Дисперсия

Дисперсия — это своего рода ошибка, возникающая в машинном обучении в результате чувствительности модели к мельчайшим изменениям в наборе данных. Из-за значительной вариации алгоритм будет моделировать шум и выбросы в обучающей выборке. Термин «переобучение» чаще всего используется для описания этого. При оценке нового набора данных модель в этом случае не дает точного прогноза, поскольку она, по сути, изучает каждую точку данных.

Сбалансированная модель будет иметь низкое смещение и низкую дисперсию, в то время как высокое смещение и высокая дисперсия приведут к недообучению или переоснащению.

Низкая погрешность – средний прогноз очень близок к желаемому числу.

Высокая погрешность – когда прогнозы и фактические значения слишком сильно различаются.

Низкая дисперсия. Точки данных небольшие и редко значительно отклоняются от среднего значения.

Высокая дисперсия — разрозненные точки данных, которые значительно отклоняются от среднего значения и других точек данных.

Нам требуется правильное соотношение смещения к дисперсии, чтобы получить достойное совпадение.

Недообучение и переоснащение

Недооснащение

Недостаточное приспособление происходит, когда модель не может правильно обобщить новые данные, потому что она не изучила должным образом закономерности в обучающих данных. На обучающих данных неподходящая модель работает плохо и делает плохие прогнозы. Когда есть высокое смещение и низкая дисперсия, происходит недообучение.

Переоснащение

Когда модель замечательно работает на обучающих данных, но плохо на тестовых данных, говорят, что она переобучена (свежие данные). В этом случае модель машинного обучения улавливает шум и тонкости в обучающих данных, что негативно влияет на то, насколько хорошо модель работает с тестовыми данными. Низкое смещение и высокая изменчивость могут привести к переоснащению.

Вы можете прочитать всю мою статью о недообучении и переоснащении в конце статьи.

Два типа регуляризации

  1. Регуляризация лассо
  2. Регуляризация хребта

Регуляризация лассо (L1)

Регуляризация L1 осуществляется с использованием этого метода регуляризации. В отличие от хребтовой регрессии, он изменяет RSS, включая штраф (количество усадки), равный сумме абсолютных значений коэффициентов.
Как видно из приведенного ниже уравнения, Лассо (оператор наименьшего абсолютного сжатия и выбора) снижает абсолютную величину коэффициентов регрессии аналогично тому, как это делается в регрессии хребта. Кроме того, он имеет хороший опыт снижения изменчивости и повышения точности моделей линейной регрессии.

Ограничение регрессии Лассо

  • С различными типами данных у Lasso иногда возникают трудности. Даже если все предикторы значимы, Лассо выберет не более n предикторов как ненулевые, если количество предикторов (p) больше, чем количество наблюдений (n) (или может использоваться в тестовом наборе).
  • Метод регрессии LASSO случайным образом выбирает одну из сильно коллинеарных переменных, когда их две или более, что плохо для интерпретации данных.

Регуляризация хребта (L2)

Этот метод выполняет регуляризацию L2. Основной подход, используемый для этого, изменяет RSS, добавляя штраф, равный квадрату величины коэффициентов. Однако считается, что этот метод используется, когда данные демонстрируют мультиколлинеарность (независимые переменные сильно коррелированы). Несмотря на то, что оценки методом наименьших квадратов (МНК) в мультиколлинеарности непредвзяты, их огромная дисперсия приводит к тому, что наблюдаемое значение сильно отличается от фактического значения. Гребневая регрессия снижает ошибки качества, в некоторой степени искажая оценки регрессии. Обычно он использует параметр сжатия для решения проблемы мультиколлинеарности. Давайте теперь посмотрим на уравнение ниже.

Здесь мы имеем дело с уравнением из двух частей. Первый обозначает член наименьших квадратов, а последний — лямбда, которая представляет собой сумму β2 (бета-квадрата), где β — коэффициент. Чтобы уменьшить размер параметра и придать ему очень низкую дисперсию, он добавляется к члену наименьших квадратов.

Ограничение хребтовой регрессии

Поскольку гребневая регрессия никогда не приводит к тому, что коэффициент равен нулю, а просто минимизирует его, она снижает сложность модели без уменьшения количества переменных. Таким образом, эта модель не подходит для сокращения функций.



Если вам нравится моя статья и усилия по отношению к сообществу, вы можете поддержать и поощрить меня, просто купив мне кофе.

Заключение

хорошо, у меня для вас хорошие новости. Я хотел бы принести несколько больше статей, чтобы объяснить концепции и модели машинного обучения с помощью кодов, так что оставьте комментарий и расскажите как ты взволнован этим.