В предишната публикация за линейната регресия премълчах много от подробностите без много обяснения. Една такава подробност беше изборът на нашата функция за загуба — функцията на средната квадратна грешка (mse). В тази публикация ще покажа защо избираме тази конкретна функция и как тя възниква естествено от проблема с линейната регресия.

Във всеки проблем с машинно обучение нашата задача е да максимизираме функция, известна като вероятността, която е функция на нашите параметри θ, когато знаем разпределението на данните. Математически функцията на вероятността е идентична с вероятността за наблюдение на данните при параметрите θ.

където X е вектор от събития.

Сега, ако приемем, че наблюдението на всяко от тези събития е независимо от наблюдението на другото, можем да запишем функцията на вероятността като,

Сега, в случая на линейна регресия, трябва да намерим стойността на θ, за която функцията на вероятност L(θ, X) е максимумът.

Да приемем, че нашите данни са нормално разпределени, където средната стойност съответства на линейния регресионен модел, който трябва да намерим.

Това е доста разумно предположение, тъй като много данни, които получаваме в реалния свят, ще бъдат нормално разпределени, като например разпределението на теглата, разпределението на височините или дори разпределението на времето за пътуване.

Да предположим, че получаваме данни, които не са нормално разпределени, можем (почти) винаги да използваме централната гранична теорема, преди да продължим към нашия анализ.

Сега нека вземем логаритъма на функцията по-горе, за да получим,

Сега разгледайте модела на линейна регресия y=mx. В този модел приемаме, че y-пресечната точка е 0, но изчисленията, които ще последват, ще бъдат подобни, дори ако вземем предвид ненулева пресечна точка.

Както показах по-рано, нашата задача е да максимизираме тази функция на вероятност L(μ,σ²). Максимизирането на L(μ,σ²) е еквивалентно на максимизирането на log(L) .

Следователно, за да максимизираме горното уравнение, трябва само да максимизираме втория член,

Сега, максимизирането на негатива на термина от дясната страна е същото като минимизирането на плюса на същия термин,

Уравнението от дясната страна не е нищо друго освен функцията за загуба на грешка на квадрат. Ако го разделим на броя на примерите, ще получим функцията на средната квадратна грешка,

Обобщавайки горното уравнение, за да включим пресечната точка,

Минимизирането на горното уравнение по отношение на параметрите (наклона и y-пресечната точка) ще даде оптималните стойности на параметрите.

По подобен начин, ако можем да извлечем функция на вероятността за всеки проблем с машинното обучение, можем също така да извлечем функция на загуба чрез максимизиране на гореспоменатата функция на вероятност. В бъдеща публикация, когато обсъждам логистичната регресия, ще покажа как функцията за кръстосана ентропия е най-естественият избор за функция на загуба.

Препратки/Допълнителна литература:

  1. Функции на загубата — ОБЯСНЕНО! От CodeEmporium
  2. „Оценка на максималната вероятност в машинното обучение от нормализиран маниак“
  3. Книга за задълбочено обучение от Иън Гудфелоу, Йошуа Бенгио, Арън Курвил — страница 129