Часть 1: Как лучше всего подобрать гауссиан

Предположим, как все мы делаем в пятницу вечером, вы просматриваете данные обо всех ростах людей, посещающих университет. Вы можете построить гистограмму всех данных, и она может выглядеть примерно так:

Вы слышите, что завтра будет новый человек, и хотите узнать, какова вероятность того, что его рост не превышает 5 см от вашего. Как вы это делаете?

1. Угадай форму

Первое, что мы хотим сделать, это построить распределение вероятностей, которое лучше всего "соответствует" данным. Для этого мы должны решить, с каким типом распределения мы имеем дело.

Гауссиан кажется разумным предположением.

Для гауссиана нам нужны два параметра: среднее значение μ и дисперсия σ². Мы могли бы просто использовать скучные оценки, найдя среднее и стандартное отклонение данных, но где в этом веселье! Вместо этого мы собираемся использовать гораздо более общий инструмент, называемый оценкой максимального правдоподобия.

2. Вычислить вероятность

Предположим, что наши данные о высоте были отобраны независимо от того же распределения Гаусса (наши данные называются i.i.d - независимыми и одинаково распределенными). Мы можем определить вероятность увидеть эти данные с учетом некоторого среднего значения и дисперсии. Назовите L вероятностью увидеть наш набор данных D = {x_1, x_2,…, x_N} и используя тот факт, что каждый образец независим и поэтому может быть записан как продукт:

Теперь мы хотим найти среднее значение и дисперсию, которые дают нам наибольшую вероятность наблюдения этих данных. То есть мы хотим найти

Решить эту проблему довольно сложно, поэтому вместо этого мы воспользуемся изящным наблюдением. Предположим, у нас есть некоторая функция f и мы хотим найти argmax f (x), тогда для любого монотонного (убывающего) h мы имеем argmax f (x) = argmax h (f (x)). (Если h монотонно уменьшается, то argmax заменяется на argmin.)

Обратите внимание, что log - это монотонно возрастающая функция. Итак, мы можем написать:

В литературе это называется логарифмической вероятностью данных. Пройдя несколько утомительных шагов (оставленных в качестве упражнения для читателя!), Мы увидим, что логарифмическая вероятность составляет:

3. Найдите оптимальное среднее значение и дисперсию

Теперь мы хотим найти максимальное значение этого параметра, выбрав оптимальные μ и σ². Это просто случай нахождения производных и установки их на 0!

Решая их относительно 0, мы получаем следующие (и очень знакомые) уравнения:

Итак, мы только что сделали очень окольный способ показать, что действительно среднее значение и (смещенная) оценка дисперсии действительно являются правильным выбором параметров.

Заключение

Итак, какой смысл делать все это, если все, что мы собираемся сделать, это восстановить уравнения для среднего и дисперсии, которые мы уже знали?

Этот метод можно применить и в более сложных ситуациях. Что, если ваши данные теперь выглядят так:

или что, если ваше предположение для базовой модели выглядит примерно так:

Где свободные параметры - f и t_p.

В этих случаях решение его с помощью явных уравнений не сработает, но атака на него с помощью оценки максимального правдоподобия может просто помочь.

В следующей статье я расскажу, как использовать максимальное правдоподобие нетривиальным способом для вычисления распределения (или, по крайней мере, вывести алгоритм для его вычисления) для некоторых более сложных данных.

Дополнение

Возможно, вы помните, что вначале мы хотели узнать вероятность того, что рост новичка будет в пределах 5 см от моего.

Оценка максимального правдоподобия для среднего составила 175,02 см, а дисперсия - 99,66 см² (параметры, которые я использовал для построения данных, были средним 175 и дисперсией 100).

Тогда это простой случай интегрирования распределения вероятностей между моим ростом-5 и моим ростом +5:

Я оставляю это как дополнительное упражнение (очень) заинтересованному читателю, чтобы определить мой рост.