Логистична регресия Математически интуиции

Логистичната регресия е контролиран алгоритъм за машинно обучение за създаване на модели, използвани за конвенционални проблеми с двоичната класификация. Дори това в името си казва регресия. Този алгоритъм се използва за обучение на модели за проблеми с класификацията.

Този модел също така разглежда първото представяне на изкуствен неврон, като се има предвид, че неговите работни потоци симулират неврон, където има масив с входните стойности и отклонението, и те са претеглени от параметрите, които дават като резултат нещо, известно като обикновено логит представено от Z, и този резултат се предава през сигмоидна функция, за да се получи прогнозата, както е на следното изображение:

Херменевтиката на този алгоритъм е същата като линейната регресия, но с допълнителна стъпка, която ще обясним по-късно. Този алгоритъм се основава на разпределението на Бернули, което моделира само два възможни случая, които са успех или неуспех, и това също е причината логистичната регресия да се използва за решаване на проблеми с двоичната класификация, като се има предвид, че има само два възможни изхода. Нека илюстрираме това:

След това, за да създадем ясна концепция за логистична регресия, ще разберем този модел като линия, която се опитва да идентифицира разделителна линия в данните, която може да има само два възможни изхода. Сега имаме глобална представа за алгоритми за логистична регресия и сме готови да се впуснем в математическото извеждане на този алгоритъм. За тази цел трябва да разберем, че херменевтиката на този алгоритъм е същата като линейната регресия. Има само допълнителна стъпка, която е логиката, която променя малко всички уравнения, използвани в процеса на обучение на модела.

LOGIT

С прости думи, логичните стойности в логистичната регресия са предсказанието на линейната регресия, което е представено от следния израз:

Тогава нека обясним извода за това как получаваме логитите. Първо, трябва да разберем разликата между две основни понятия, които са вероятност и шансове, защото много хора ги бъркат, сякаш са едно и също. Вероятността е колко е вероятно дадено събитие да се случи, а коефициентът е пропорцията между вероятността за успех и неуспех. Вземете като пример хвърляне на монета. Вероятността да получите глава или опашка е 50% или 0,5; Коефициентите от друга страна се дават от следния израз:

Където p представлява вероятността за успех, а q е допълнението на вероятността. И така, като се има предвид този израз, бихме предположили, че шансовете в примера за хвърляне на монета ще бъдат следните:

Сега, след като знаем разликата между шансове и вероятности, ние сме готови да продължим напред. Приспаданията за логичните стойности започват от израза на коефициентите, тъй като p е вероятността за успех, а допълнението е вероятността за неуспех, но както може да забележите, този израз е нелинейна функция, която няма същия диапазон от изходи, както е показано на следната снимка:

Вижте, че възможността за всеки изход не е равномерно разпределена. За да разрешим това, трябва да направим израза на коефициентите линейна функция чрез прилагане на функцията натурален логаритъм. Така достигаме до равно разпределение на възможностите:

Сега имаме еднакво разпределени възможности и това всъщност е логиката, но в случай на логистична регресия ние просто приемаме вероятността като прогноза или y_hat, която може да има само два възможни отговора, 0 или 1. Тогава нека разгледайте следния израз, който представлява logit:

Сега имаме логическия израз, но може би се чудите, че този израз не е същият израз като линейната регресионна прогноза, за която казахме, че е логичният в началото. Е, оказва се, че това е същият израз и е както следва:

Сега имаме приспаданията за логиците, можем да преминем напред към прогнозата, но имайте предвид този израз, тъй като ни е необходим за приспадането на прогнозата.

ПРОГНОЗА

Функцията за прогнозиране е по същество сигмоидалната функция, която се получава от прилагането на експоненциалната функция към логическия израз и извършването на някои математически операции, които са в дедукцията по-долу:

Както можете да видите, след прилагане на експоненциалната функция, експоненциалната на Z или логита става оригиналната функция на коефициентите, тъй като експоненциалната и логаритмичната функции са противоположни, след което извършваме някои алгебрични операции, за да завършим накрая в сигмоидалната функция на Z, която е прогнозата за логистична регресия.

ФУНКЦИЯ ЗАГУБА

В този случай, за да измерим процента на грешка, ще използваме метода на максималната вероятност, което е много удобно, като се има предвид, че използваме алгоритъм за двоична класификация, базиран на разпределението на Бернули, тъй като приспадането за максимална вероятност също започва с разпределението на Бернули, така че нека да разгледаме формулата на Бернули:

За логистична регресия задаваме тази формула, като приемаме p като прогноза и x са възможните изходи y, дадени на набор от данни x, както е показано по-долу:

Това е изразът на вероятността за един регистър в логистичната регресия. Можем да обобщим този израз като продукт на всички вероятности на набора от данни, както следва:

Изразът, който току-що извадихме, е вероятността за набора от данни, но както може би сте видели, този израз е много труден за изчисляване, докато размерът на набора от данни нараства. За да решим това, трябва да минимизираме израза с помощта на логаритмичната функция и в крайна сметка получаваме следния израз:

Сега можете да видите, че това е по-лесно за изчисляване и ако заменим формулата на Бернули за логистична регресия в този израз, ще стигнем до формулата на вероятността. И така, нека направим приспадането:

Успяхме!!, имаме формулата за максимална вероятност за измерване на грешката в обучението на нашия модел.

ГРАДИЕНТЕН СПУСК

Сега имаме почти всички елементи за обучение на нашия логистичен регресионен модел, но все още остава градиентното спускане, което ще използваме за оптимизиране на векторните параметри на нашия модел. Формулата за градиентно спускане се дава от:

Това очевидно е същото градиентно спускане, използвано за оптимизиране на параметрите на всеки модел, но разликата е в градиента на грешката. За да видим коя е истинската формула за градиентно спускане за логистична регресия, трябва да намерим градиента на грешката, в този случай, градиента на максималната вероятност, който може да бъде намерен с помощта на верижното правило:

Следвайки този метод, трябва да получим производните на грешката, прогнозата и логическите данни. И така, нека ги вземем:

Забележете, че производната на прогнозата в крайна сметка е същата като сигмоидалната производна, а логит производната може да бъде намерена директно от логит формулата. Сега, когато имаме трите необходими производни, нека ги заменим във верижното правило, за да получим градиента на максималната вероятност:

Както можете да видите, градиентът на грешките изглежда като градиента на линейната регресия, но в този случай имайте предвид, че прогнозата е различна функция и това е единственото нещо, което прави градиента на логистичната регресия различен от линейна регресия.

Сега, след като имаме градиента, нека да видим спускането на градиента за логистична регресия, което е представено от следния израз:

В линейната регресия също споменахме, че има и директен метод за оптимизиране на параметрите; Това не е случаят с логистичната регресия. Директният метод не може да се използва за тази оптимизация на алгоритъма, единственият наличен метод е градиентното спускане.

ИЗПЪЛНЕНИЕ НА ЛОГИСТИЧНА РЕГРЕСИЯ

Вече сме готови с всички елементи, за да разберем пълното внедряване и обучение на модел на логистична регресия, така че нека да разгледаме следващата илюстрация:

Както можете да видите, процесът все още е същият като линейната регресия, където имаме матричен набор от данни като вход и векторен параметър, стартиран на случаен принцип; Тези входове се управляват от функцията за прогнозиране, след което измерваме нашата грешка с функцията за загуба, след което въз основа на този резултат оптимизираме вектора на параметрите с градиентно спускане, но в този случай прогнозата се дава от друго уравнение. Също така забележете, че сме използвали максималната вероятност като функция на загуба в сравнение със статията за линейна регресия, където използвахме минималната квадратна грешка като функция на загуба. Имайте предвид, че функцията на загуба и градиентното спускане използват прогнозата в своите изрази; И така, тъй като функцията за прогнозиране се е променила, двете уравнения също са се променили поради функцията за прогнозиране.

SOFTMAX РЕГРЕСИЯ

Има и друг алгоритъм за машинно обучение, наречен softmax регресия или многокласова логистична регресия. Това е разширение на традиционната двоична логистична регресия; Тази версия дефинира идеята за наличие на множество резултати. Процесът по същество е същият. За да не продължим толкова дълго, ще видим само разликите му.

Традиционната логистична регресия има само един logit, тъй като прогнозата може да предостави само два възможни изхода, в този случай имаме много изходни данни, които се наричат класове, и за всеки от тях имаме logit и прогноза, която е вероятност; След това можем да приемем, че нашият краен изход ще бъде вектор от вероятностни стойности, където избраният отговор ще бъде класът с най-висока вероятност, както на следващата илюстрация:

В тази илюстрация можем да видим, че параметрите вече не са вектор, вместо това имаме матрица от параметри; Това ни позволява да генерираме logit за всеки даден клас, представен като следния израз:

В двоичната логистична регресия, след като логитът беше изчислен, ние оперирахме с този резултат със сигмоидална функция; В случай на softmax регресия, след получаването на logit, ние изчисляваме всеки logit с функция softmax вместо сигмоидална, това е причината тази версия да се нарича softmax регресия. И така, нека да видим как softmax е представен в неговата математическа форма:

Както можете да видите, softmax е нашата прогноза и се дава от това уравнение, където n е броят на регистрите или редовете, k е броят на класовете и Z е нашият logit. За да продължим, тази операция за получаване на прогнозата в сравнение с двоичната логистична регресия, където имаме вектор и матричен продукт, се променят до двуматричен продукт и се изчисляват с функция softmax, като следното:

Нещо друго, което се променя в тази версия, е функцията за загуба. Извадихме максималната вероятност за измерване на грешката на двоичната логистична регресия. Тази функция е известна още като двоична кръстосана ентропия. В случай на softmax регресия, има също разширение на това уравнение, за да работи като функция на загубата, което се нарича категорична кръстосана ентропия. Тази функция е дадена със следния израз:

Имайки предвид тези промени, ще можете да приложите регресията на softmax със същия процес на двоична логистична регресия.

Надявам се, че това е било много полезно за вас!!