Логистична регресия: вероятностен подход

Как естествено се оказваме с логистична регресия, когато се опитваме да намерим алгоритъм за двоична класификация?

Когато започнах машинното си обучение, повечето въвеждащи курсове онлайн не предоставиха подходяща обосновка за много въпроси, които имах относно двоичната класификация —

  • Защо да използвате функцията Sigmoid?
  • Как стигнахме до този алгоритъм?

Това беше нещо, което беше отхвърлено, като се каза, че Sigmoid е начин да картографира стойностите от реално число до (0, 1) и логистична регресия извежда вероятност (което е вярно само по себе си, но не дава много представа).

Ще се опитам да отговоря на тези въпроси и се надявам да осигуря на начинаещите по-задълбочено разбиране на логистичната регресия чрез вероятностни разпределения и теория на обобщените линейни модели.

Предпоставка

За целите на тази публикация ще приема, че читателят знае какво е „случайна променлива“ и „разпределение на вероятностите“.

Експоненциално семейство от разпределения

В статистиката всяко вероятностно разпределение, чиято функция на плътността на вероятността (или функцията на вероятностната маса) може да бъде представено в следната форма, се казва, че принадлежи към експоненциалното семейство от разпределения.

Тук η се нарича естествен параметър.

Експоненциалното семейство има някои хубави свойства -

  1. Проблемът за оптимизация е изпъкнал за експоненциално семейство от разпределения.
  2. Средната стойност и дисперсията могат да бъдат изчислени чрез диференциране.

Поради тези свойства приемаме, че нашата целева променлива следва едно от разпределенията на експоненциалното семейство, тъй като това осигурява по-проста оптимизация.

Предположения за обобщени линейни модели

Тъй като се опитваме сами да измислим логистична регресия, първо трябва да знаем за генерализираните линейни модели. GLM е голям клас алгоритми, от които логистичната регресия е единичен алгоритъм.

Това са предположенията, които правим, когато проектираме всеки линеен модел-

  1. y | x;θ ~ Експоненциално семейство(η)

2. η = точка(θ.T , X)

3. Изход, h(x) = E(Y | X;θ)

Тук (x, y) е пример от нашия обучителен набор.

h(x) е нашата хипотезна функция.

Можем да изберем разпределението въз основа на типа данни, които трябва да предвидим. За логистична регресия (т.е. двоични данни) разпределението, което използваме, е разпределението на Бернули.

Разпределение на Бернули

Разпределението на Бернули е разпределението на случайната променлива Y, където Y може да приема само стойности 0 или 1 и P(Y = 1) = Φ. Φ е известен също като каноничния параметър на разпределението на Бернули.

За да можем да използваме разпределението на Бернули за нашите цели, първо трябва да проверим дали то принадлежи към експоненциалното семейство.

Нека да видим дали разпределението на Бернули принадлежи към експоненциалното семейство.

Тази форма е подобна на общата форма на експоненциалното разпределение, така че заключаваме, че разпределението на Бернули принадлежи към експоненциалното семейство.

Запомнете горния израз, тъй като ще го използваме по-късно, това е връзката между естествения параметър η и каноничния параметър Φ за разпределението на Бернули.

Средна стойност на разпределението на Бернули

За по-интуитивен подход помислете за хвърляне на предубедена монета n пъти, която има вероятност да даде глави като Φ.

Нека X е случайна променлива, където X = 1, когато получим глави при хвърляне на монета и X = 0, когато получим опашки при хвърляне на монета. Да предположим, че сме хвърлили монетата N пъти.

Същото може да се извлече, като се използва второто свойство на експоненциалното семейство. Опитайте сами

Подсказка: Използвайте връзката, която получихме между Φ и η.

Логистична регресия

След като вече знаете за основните принципи, получаването на уравнението за логистична регресия не е голяма задача.

Нека θ е векторът на параметъра и h(x) е функцията на хипотезата на нашия модел.

От нашите допускания на GLM, h(x) извежда средната стойност на експоненциалното семейно разпределение, дадено отη = dot(θ.T , X).

Това разпределение е Бернули за нашия пример, следователно Mean = Φ.

Използвайки връзката между η и Φ за разпределение на Бернули,

Така изходът на нашия модел, h(X) е -

Сега можете да видите как по естествен начин стигаме до логистична регресия, когато се опитваме да класифицираме двоична променлива, която следва разпределението на Бернули.

За повече математика и подробности вижте лекцията Stanford cs229n.