Логистическая регрессия: вероятностный подход

Как мы естественным образом приходим к логистической регрессии при поиске алгоритма двоичной классификации?

Когда я начал заниматься машинным обучением, большинство вводных онлайн-курсов не давало подходящего обоснования для многих вопросов, которые у меня возникали относительно двоичной классификации -

  • Зачем использовать сигмовидную функцию?
  • Как мы пришли к этому алгоритму?

Это было то, что было отвергнуто, говоря, что сигмоид - это способ сопоставления значений от действительного числа до (0, 1) и вероятности результатов логистической регрессии (что само по себе верно, но не дает большого понимания).

Я постараюсь ответить на эти вопросы и надеюсь дать новичкам более глубокое понимание логистической регрессии с помощью распределений вероятностей и теории обобщенных линейных моделей.

Предпосылка

В рамках этого поста я предполагаю, что читатель знает, что такое случайная переменная и распределение вероятностей.

Экспоненциальное семейство распределений

В статистике любое распределение вероятностей, которое представляет собой функцию плотности вероятности (или функцию массы вероятности), может быть представлено в следующей форме, как говорят, принадлежит к экспоненциальному семейству распределений.

Здесь η называется естественным параметром.

У Exponential Family есть несколько хороших свойств -

  1. Задача оптимизации является выпуклой для экспоненциального семейства распределений.
  2. Среднее значение и дисперсию можно вычислить путем дифференцирования.

Из-за этих свойств мы предполагаем, что наша целевая переменная следует одному из распределений экспоненциального семейства, поскольку это обеспечивает более простую оптимизацию.

Предположения для обобщенных линейных моделей

Поскольку мы пытаемся самостоятельно придумать логистическую регрессию, мы сначала должны узнать об обобщенных линейных моделях. GLM - это большой класс алгоритмов, единым алгоритмом которого является логистическая регрессия.

Это допущения, которые мы делаем при разработке любой линейной модели:

  1. y | x; θ ~ Экспоненциальное семейство (η)

2 . η = точка (θ.T, X)

3. Выход, h (x) = E (Y | X; θ)

Здесь (x, y) - это пример из нашей обучающей выборки.

h (x) - функция нашей гипотезы.

Мы можем выбрать распределение на основе типа данных, которые нам нужно предсказать. Для логистической регрессии (т.е. двоичных данных) мы используем распределение Бернулли.

Распределение Бернулли

Распределение Бернулли - это распределение случайной величины Y, где Y может принимать только значения 0 или 1, а P (Y = 1) = Φ. Φ также известен как канонический параметр распределения Бернулли.

Чтобы иметь возможность использовать распределение Бернулли для нашей цели, нам сначала нужно убедиться, что оно принадлежит к экспоненциальному семейству.

Давайте посмотрим, принадлежит ли распределение Бернулли к экспоненциальному семейству.

Эта форма похожа на общую форму экспоненциального распределения, поэтому мы заключаем, что распределение Бернулли принадлежит к семейству экспоненциальных.

Помните приведенное выше выражение, поскольку мы будем использовать его позже, это связь между естественным параметром η и каноническим параметром Φ для распределения Бернулли.

Среднее значение распределения Бернулли

Для более интуитивного подхода подумайте о подбрасывании искаженной монеты n раз, при которой вероятность выпадения орла равна Φ.

Пусть X - случайная величина, где X = 1, когда мы получаем орел при подбрасывании монеты, и X = 0, когда мы получаем решку при подбрасывании монеты. Предположим, мы подбросили монету N раз.

То же самое можно получить, используя второе свойство экспоненциального семейства. Попробуй сам

Подсказка: используйте полученное нами отношение между Φ и η.

Логистическая регрессия

Теперь, когда вы знаете об основных принципах, получение уравнения логистической регрессии не является большой задачей.

Пусть θ будет вектором параметров, а h (x) - функцией гипотезы нашей модели.

Исходя из наших предположений GLM, h (x) выводит среднее значение экспоненциального распределения семейств, заданное как η = dot (θ.T, X).

В нашем примере это распределение Бернулли, поэтому Среднее = Φ.

Используя соотношение между η и Φ для распределения Бернулли,

Таким образом, вывод нашей модели, h (X) -

Теперь вы можете увидеть, как мы естественным образом приходим к логистической регрессии, когда пытаемся классифицировать двоичную переменную, которая следует распределению Бернулли.

Чтобы узнать больше о математике и деталях, прочтите лекцию Stanford cs229n.