В тази статия ще продължа с историята на логистичната регресия, ако не сте чели предишната статия, ето връзката

Позволете ми да направя нещата ясни и прости, дори в тази статия няма да мога да завърша логистичната регресия, защото това е обширна тема и ние я разглеждаме подробно, така че е по-добре да планирате какво ще разгледаме в тази статия.

Ще покрием:

  1. Вероятностен подход на сигма функция.
  2. Теория за оптимизация.
  3. Ще изведем проблем за оптимизиране на LR чрез геометрия.
  4. ВЕКТОР НА ТЕГЛО
  5. Ние ще се справим с проблема с претоварването.
  6. Ще видим L1 и L2 регулиране в детайли.

Така че нека започнем,

Вероятностен подход на сигма функция

Досега сме извличали проблема за оптимизация, който може да се справи с извънредни стойности чрез намаляване на разстоянието, което знаем, защо се използва сигма функцията. Една от причините да използваме сигма функцията е, че тя има страхотна вероятностна интерпретация.

Нека видим сега вероятностната интерпретация на сигма функцията.

СЛУЧАЙ 1

Да кажем, че имаме същия проблем с класификацията, при който класифицираме положителни с отрицателни, така че нека си представим точка на заявка, която лежи на хиперравнината, сега интуитивно има 50 -50 шанс точката на заявка да бъде класифицирана като положителна и като отрицателна като добре. Така че каква ще бъде вероятността точката да е положителна, тя е 0,5 без съмнение и същата за отрицателна.

P(Y=1)=0.5

имаме сигма функция, която се дефинира като

сигма=1/(1+e^(-s)) и тук за LR,

s=yi*w^T*xi, за горния проблем w^T*xi е „0“, защото точката лежи на хиперравнината, така че s=0, което означава сигма =0,5, същото като вероятността (намерено по-горе)

СЛУЧАЙ 2

Да кажем, че имаме същия проблем с класификацията, в който класифицираме положителни с отрицателни, така че нека си представим точка на заявка, която се намира на разстояние 100 от хиперравнината, както е показано на изображението, сега първо помислете, че според нашата сигмоидна функция по-долу е графика на сигма функция.

когато точката е на далечно разстояние, да кажем, че w^T*xi(разстоянието от хиперравнината) е 100, както споменах по-горе и в същата посока на w, според графиката стойността й ще бъде 0,99999, която можете да извлечете от формулата също означава P(Y=1)=0,99999 означава, че има 99 процента вероятност Y да принадлежи към положителен клас. Така че можем лесно да претендираме за един резултат от това, което е,

sigma(w^T*xi)=P(y=1), където P(y=1) е равно на вероятността, когато y=1 означава, че точката принадлежи на положителен клас.

Очевидно е, че стойностите на „сигма(w^T*xi)“ са от 0 до 1, тъй като стойността на вероятността е от 0 до 1.

Теория за оптимизация за ЛОГИСТИЧНА РЕГРЕСИЯ

Така че имаме нужда от инструменти за оптимизация, за да оптимизираме нашия LR проблем. Можем да решим и предишния проблем с оптимизацията, но искаме да го направим много по-добър.

Досега виждахме нашия проблем с оптимизацията, който е по-малко повлиян от отклонения.

Сега, за да намерим по-оптимизирания, нека разберем някои теории за оптимизация.

Монотонни функции

да кажем, че имам две точки x1 и x2 и знам x1›x2, така че ако има функция g(x1) и има функция g(x2) и

ако g(x1) ›g(x2) тогава

g(x) е монотонно нарастваща функция като log(x)

Както можете да видите на графиката, ако x нараства, log(x) се увеличава. Log(x) е мотонотично нарастваща функция.

Сега да кажем, че имаме оптимизационен проблем, в който трябва да намерим най-добрата стойност на x, която минимизира x^2

Сега можем лесно да дадем отговора му да бъде „0. Както можем да видим на графиката по-долу, че за x=0, x^2 е 0, което е минималната стойност, така че стойността на x* е 0 от горната снимка.

Сега да кажем, че имам функция g(x) =log(x) и искам да намеря най-добрата стойност на x, за която мога да получа минимума от g(f(x)), където f(x) е x^2 .

така че отново имам проблем с оптимизацията, в който трябва да намерим x, което минимизира g(f(x))

g(f(x))= log(x^2).

Сега теорията за оптимизация казва, че x*, което намерихме в първия проблем (докато използвахме само f(x)=x^2), е равно на x', което намерихме във втория проблем (докато използвахме g(f(x)), ако g(x) нараства монотонно.

Можем да го видим и на графиката по-долу, открихме x*=0, така че ако видим графиката на log(x^2), можем да видим, че е минимум при 0 и това се случва, защото log(x) е монотонно увеличаваща се функция.

Нека приложим тази теория към нашия LR ОПТИМИЗАЦИОНЕН ПРОБЛЕМ

ВЕКТОР НА ТЕГЛО

Една мисъл може много лесно да бъде погрешно разбрана

Вектор “w*”, първо това е вектор, който получихме след решаване на задачата за оптимизация.

КАК ГО РАЗРЕШАВАМЕ?

Ще обсъдим това в подробности в бъдеще, но засега нека кажем, че имаме w*(оптимално w) по някакъв начин, засега ще пиша w* само като w.

Така че “w” е вектор на d измерение, защото в противен случай w^T*x не е възможно, тъй като x също е d измерение.

Тук размерите просто означават характеристики

Можем да разберем w вектор като тегла за всяка характеристика.

w=<w1, w2, w3…wd>

за функции

f=<f1, f2, f3….fd>

тегло за всяка характеристика.

Да видим какво се случва по време на тестването.

Да кажем, че имате точка на заявка (xq) и трябва да намерите нейния клас lable(yq), който може да бъде положителен или отрицателен.

so if

w^T*xq›0 след това yq=+ve

където w е оптималното w, което намерихме след решаването на задачата за оптимизация.

if

w^T*xq‹0 след това yq=-ve

ПРОБЛЕМ С ПРЕПОРЪЧВАНЕ

Сега имаме проблем, нека го разрешим.

Досега получихме нашия оптимизиран проблем

да кажем zi=yi*w^T*xi

сега, ако анализираме, знаем по природа, exp(-zi) винаги е по-голямо равно на нула, (1+exp(-zi)) винаги е по-голямо от нула и log е монотична функция

log(1+exp(-zi))›0

Така че сумирането на всички стойности на log върху различни zi е по-голямо от нула, което означава, че ако искаме да намерим минималната стойност, тя трябва да е нула. Така че основно трябва да намерим w*, за което целият сумиращ член става нула.

Сега, ако анализираме внимателно, можем да кажем, че стойността на журнала е „0“ само при x=1, log(1)=0, означава 1+exp(-zi)=1, означава, че exp(-zi) става 0, за което zi трябва да стане безкрайност.

zi =yi*w^T*xi, дадени са ни yi и xi, когато казваме, че zi стават безкрайни, това означава, че w трябва да стане безкрайни и ако zi е безкрайност, ние също казваме, че zi›0 означава, че винаги сме правилно класифициране на всички тренировъчни точки и това означава, че пренастройваме модела.

Сега, ако си спомним, забравяме един ключов аспект, че w е нормално към хиперравнина.

w^t*w=1, никъде не сме използвали това условие.

така че нека използваме това.

КАК ДА СЕ СПРАВИТЕ С ТОЗИ ПРОБЛЕМ?

Отговорът е Регулиране, има два вида регулиране L1 И L2, Регулирането просто е като да добавите другия термин, така че да създаде стабилност и да намали пренастройването.

L2 Регулиране

ако напишем нашия оптимизационен проблем така,

Сега, ако видим, че искаме да намерим w, което минимизира целия този член, ако искаме да намалим log term, трябва да увеличим w и ако увеличим w term, тогава регулярният член ще бъде максимален и няма да получим минимална стойност и не се използва термин за регулиране.

Сега, ако намалим стойността на w, тогава log term няма да бъде 0 и отново няма да намерим минималната стойност.

Тук ламбда е хиперпараметър, който може да бъде намерен чрез кръстосано валидиране

Така че, ако lamda е „0“, означава, че няма термин за регулиране, което означава пренастройване.

И ако ламбда е безкрайност, това означава, че влиянието на термина на загуба ще бъде по-малко, така че няма да има данни за използване на обучение, моделът ще бъде недостатъчен.

L1 РЕГУЛАРИЗАЦИЯ

РЕГУЛАРИЗАЦИЯТА НА L1 Е СТРАХОТНА, АКО ИСКАТЕ НИСКО ЗАКЪСНЕНИЕ, ОСОБЕНО В ИНТЕРНЕТ КОМПАНИИ, КЪТО ИЗПОЛЗВАНЕТО ОЧАКВА РЕЗУЛТАТЪТ ДА ДОЙДЕ ЗА СЕКУНДИ.

Това всъщност създава решение на логистична регресия, което е „w“ твърде рядко, означава, че ако w са по-малко значими, ако някои характеристики са по-малко значими в приноса за решението, тогава L1 ще направи това w нула.

PPPPPP

ЗАЩО L1 СЪЗДАВА РАЗПРЕДЕЛЕНОСТ В „W“ В СРАВНЕНИЕ С РЕГУЛАРИЗАЦИЯТА L2??

Има и друг метод за регулиране и това е Еластична мрежа. Основно комбинирахме L1 и L2 и използвахме просто намерени два хиперпараметъра чрез кръстосано валидиране.

Така че това е всичко за тази статия, това е повече или по-малко историята зад ЛОГИСТИЧНАТА РЕГРЕСИЯ.

Благодаря, че прочетохте.