В предыдущем посте о линейной регрессии я замалчил многие детали без особых пояснений. Одной из таких деталей был выбор нашей функции потерь - функции среднего квадрата ошибки (МСЭ). В этом посте я покажу, почему мы выбираем именно эту функцию и как она возникает естественным образом из проблемы линейной регрессии.

В любой задаче машинного обучения наша задача - максимизировать функцию, известную как вероятность, которая является функцией наших параметров θ, когда мы знаем распределение данных. Математически функция правдоподобия идентична вероятности наблюдения данных с учетом параметров θ.

где X - вектор событий.

Теперь, если мы предположим, что наблюдение каждого из этих событий не зависит от наблюдения другого, мы можем записать функцию правдоподобия как,

Теперь, в случае линейной регрессии, мы должны найти значение θ, для которого функция правдоподобия L (θ, X) максимально.

Предположим, что наши данные распределены нормально, где среднее значение соответствует модели линейной регрессии, которую мы должны найти.

Это довольно разумное предположение, поскольку многие данные, которые мы получаем в реальном мире, будут нормально распределены, например, распределение весов, распределение высот или даже распределение времени в пути.

Предположим, мы получаем данные, которые не имеют нормального распределения, мы можем (почти) всегда использовать Центральную предельную теорему, прежде чем приступить к нашему анализу.

Теперь давайте возьмем логарифм вышеупомянутой функции, чтобы получить,

Теперь рассмотрим модель линейной регрессии y = mx. В этой модели мы предполагаем, что точка пересечения по оси Y равна 0, однако последующие вычисления будут аналогичными, даже если мы рассмотрим точку пересечения с отличным от нуля.

Как я показал ранее, наша задача - максимизировать эту функцию правдоподобия L (μ, σ²). Максимальное увеличение L (μ, σ²) эквивалентно максимальному увеличению log (L) .

Следовательно, чтобы максимизировать приведенное выше уравнение, нам нужно только максимизировать второй член,

Теперь максимизация отрицательного значения члена в правой части - это то же самое, что минимизация положительного значения того же члена,

Уравнение в правой части - это не что иное, как возведенная в квадрат функция потерь ошибок. Если разделить его на количество примеров, мы получим функцию среднеквадратичной ошибки,

Обобщая приведенное выше уравнение, чтобы включить точку пересечения,

Минимизация приведенного выше уравнения по параметрам (наклон и точка пересечения по оси Y) даст оптимальные значения параметров.

Точно так же, если мы можем вывести функцию правдоподобия для любой проблемы машинного обучения, мы также можем вывести функцию потерь, максимизируя вышеупомянутую функцию правдоподобия. В одном из будущих постов, когда я буду обсуждать логистическую регрессию, я покажу, как функция кросс-энтропии является наиболее естественным выбором для функции потерь.

Ссылки / Дополнительная литература:

  1. Функции потерь - ОБЪЯСНЕНИЕ! Автор CodeEmporium
  2. Оценка максимального правдоподобия в машинном обучении от нормализованного ботаника
  3. Книга по глубокому обучению Иэна Гудфеллоу, Йошуа Бенжио, Аарона Курвилля - стр. 129