Невиждано и задълбочено разбиране на логистичната регресия

Здравейте, аз съм Mayur Gargade, работя като специалист по данни във VisionNLPhttps://medium.com/visionnlp

За да разберете алгоритъма за логистична регресия, ще ви е необходим известен опит в модела на линейна регресия, който е първият модел, използван за изпълнение на задачи за машинно обучение. Моля, прочетете предишния ми блог линейна регресия.

Както обсъдихме в предишния блог, линейната регресия се използва главно за анализиране на данни, където нашата променлива на отговор е числова, също така обсъдихме какъв вид проблеми можем да разрешим с помощта на този алгоритъм. Сега нека си представим, че имате данни, където променливата на отговора е в категоричен формат, ще работи ли линейната регресия? и защо не? какви други модели могат да помогнат за разрешаването на този вид ситуация?

Отговорът е, че класификационните модели могат да решат проблем, при който имате променливата на отговора си в категоричен формат, нека разберем първия и същевременно прост алгоритъм на класификационната категория.

Какво е логистична регресия, когато можем да използваме този модел?

Логистичната регресия е алгоритъм за машинно обучение, който се използва за проблеми с класификацията. Логистичната регресия прогнозира изхода на категорична зависима променлива. Следователно изходът трябва да е категоричен. Най-простият случай е двоична класификация. Това е като въпрос, на който можем да отговорим с „да“ или „не“. Имаме само два класа: положителен клас и отрицателен клас. Обикновено положителният клас сочи към наличието на някакъв обект, докато отрицателният клас сочи към липсата му.

Защо логистична регресия вместо линейна регресия?

Вероятността варира от 0 до 1, а стойността на линейната регресия варира от -∞ до + ∞
Решаваме проблема, като използваме коефициенти вместо вероятност. Ако дадено събитие има вероятност от p, тогава то има шансове p/(1-p).
Докато p варира от 0 до 1, p/(1-p) варира от 0 до ∞, а log(p/(1-p)) варира от — ∞ до + ∞.

Нека разберем с пример;

Тук можем да видим, че ако имаме нашите резултати като 0 и 1 и ако я начертаем, графиката винаги ще изглежда като изображението по-горе, така че с линеен регресионен модел няма да можем да намерим нашата най-подходяща линия, вече са изучавали различни линии (криви) в часовете ни по математика в академичните среди. Какво мислите за горните точки от данни, каква крива ще бъде тук? S-крива? Да видим;

S-образната крива изглежда като най-подходящата крива на данните, за да използваме този тип крива в математическата формула, трябва да разберемфункцията logit.

Най-задаваният въпрос на интервюто е можем ли да имаме линейна регресия, когато имаме нашата променлива за отговор в двоичен формат?
Отг.: Технически можем да го използваме с няколко модификации заедно с правило за класификация; Погледнете следното изображение, за да го разберете.

Формула за логистична регресия

Видове задачи за логистична регресия:

Биномен— В биномиалната логистична регресия само два вида зависими променливи или 0, или 1.
Пример: Ще издържи ли студентът или ще се провали на изпита

Мултиномиална— При многочленната логистична регресия има 3 или повече типа неподредени зависими променливи.
Пример: като използвате медицинската история на пациента, кое лекарство ще предложите за излекуване на диабетици?

Ординална— При ординалната логистична регресия също има 3 или повече зависими променливи, но типът на променливата е подреден. като „нисък“, „среден“ или „висок“.

Logit функция:

Всичко това означава, че когато Y е категоричен, ние използваме логиката на Y като отговор в нашето регресионно уравнение вместо само Y:

Функцията logit е естественият логаритъм на шансовете, че Y е равно на една от категориите. За математическа простота ще приемем, че Y има само две категории и ще ги кодираме като 0 и 1. Това е напълно произволно – можехме да използваме всякакви числа. Но те карат математиката да работи добре, така че нека се придържаме към тях. P се определя като вероятността Y=1. Така например, тези X могат да бъдат специфични рискови фактори, като възраст, високо кръвно налягане и ниво на холестерола, а P ще бъде вероятността пациентът да развие сърдечно заболяване.

Сигмоидна функция:

Сигмоидната функция е математическа функция, която се използва за нанасяне на прогнозирани стойности като вероятност. Сигмоидната функция картографира стойността на логистичната регресия винаги между 0 и 1, което не е извън тази граница. Отново, за да получим стойности в 0 и 1, трябва да формираме крива като формата „S“. S-образната крива се нарича сигмоидна функция; Прагът се използва за правилото за класификация.

Функция на разходите и параметри на логистичната регресия:

Функцията на разходите е важна, защото ни дава грешките на нашите прогнози и впоследствие е необходима за нашия алгоритъм за обучение. По-конкретно, ние обичаме да минимизираме грешките на нашите прогнози, т.е. да минимизираме функцията на разходите.

За разлика от линейната регресия, коефициентите на логистичната регресия се изчисляват с помощта на MLE (оценка на максималната вероятност).
Следователно вместо това трябва да се използва итеративен процес.
Този процес започва с условно решение, което го преразглежда леко, за да види дали може да бъде подобрено, и повтаря това преразглеждане, докато подобрението стане малко, в който момент се казва, че процесът се сближава.
В някои случаи моделът може да не достигне конвергенция.
Неконвергенцията показва, че коефициентите нямат смисъл, тъй като итеративният процес не е успял да намери подходящо решение.
Неуспех при сближаване може да възникне поради много причини: наличие на голям брой предиктори за случаи, мултиколинеарност, рядкост или пълно разделяне.

Защо не използваме същата функция на разходите на линейната регресия в логистичната регресия?

За да разберете отговора на този въпрос, моля, погледнете следното изображение. Накратко това, което обясних в изображението, е; за да получим най-добрите параметри, използвайки итеративния метод, обикновено използваме метода на градиентно спускане вместо функцията за квадратна грешка, защото искаме да постигнем така наречените глобални минимуми и ако използваме неизпъкналата функция, ние не не достигаме до глобални минимуми, защото имаме множество локални минимуми и през повечето време оставаме в локални минимуми.

Индивидуалното въздействие на независимите променливи:

В моделите на линейна регресия сте използвали P-стойността, за да проверите дали независима променлива има значително влияние върху зависима променлива. Бета коефициентите в линейната регресия следват Т-разпределението, така че направихте Т-тест, за да видите влиянието на всяка променлива. Тук, при логистична регресия, бета коефициентите следват разпределението Хи-квадрат. И така, стойността на вероятността (P-стойност) на теста Хи-квадрат ви казва за въздействието на независимите променливи в моделите на логистична регресия.

Хи-квадрат тест в логистичната регресия тества хипотезите тук: H0: Независимата променлива няма значително влияние върху зависимата променлива. H1: Независимата променлива има значително влияние върху зависимата променлива.

Ще разгледате P-стойността на теста Хи-квадрат, за да вземете решение за приемане или отхвърляне на хипотезата. Ако P-стойността на теста Хи-квадрат е по-малка от 5 процента, вие отхвърляте нулевата хипотеза; отхвърляте нулевата хипотеза, че променливата няма значително влияние върху зависимата променлива. Това означава, че променливата има някакво значително въздействие; следователно го запазвате в модела. Ако P-стойността на теста Хи-квадрат е по-голяма от 5 процента, тогава няма достатъчно доказателства за отхвърляне на нулевата хипотеза. Така че приемате нулевата хипотеза, че променливата няма значително влияние върху зависимата променлива; следователно го изпускате от модела. Отпадането на такива незначителни променливи от модела няма да окаже влияние върху точността на модела.

Можете да погледнете стойността на Wald Chi-квадрат, когато сравнявате две независими променливи, за да решите коя променлива има по-голямо въздействие. Ако стойността на Wald Chi-квадрат е висока, тогава P-стойността е ниска. Например, ако сравнявате въздействието на две независими променливи като доход и брой зависими лица върху променливата на отговора, тогава ще бъде избрана променливата с по-висока стойност на Wald Chi-квадрат, тъй като има по-голямо въздействие върху зависимата променлива ( или променлива на отговора).

Обобщение на логистичната регресия

Приложимост: Вижте данните и зависимите променливи. Категорично ли е? Да/Не, 0/1, Печалба/Загуба и т.н. са типовете резултати от променливи на отговор, при които можете да приложите логистична регресия.
Стойност хи-квадрат: Погледнете общата стойност хи-квадрат, за да решите дали даден модел е значим. Ако тестът Хи-квадрат се провали, спрете го веднага; самият цялостен модел не е значим. Хи-квадрат няма да ви каже нищо за прецизната точност на модела.
VIF: Проблемът с мултиколинеарността трябва да бъде решен по същия начин, както при моделите на линейна регресия. Идентифицирайте и разрешите проблема, като премахнете проблемните променливи.
Обща точност/съответствие: Определете точността на даден режим, като разгледате неговите съгласувани и C стойности. Колкото по-висока е стойността, толкова по-добър е моделът. Ако стойностите на съгласуваност и C не са задоволителни, тогава можете да помислите за събиране на малко повече данни или добавяне на по-добри, по-въздействащи независими променливи, което ще подобри цялостната производителност на модела.
Индивидуално въздействие/стойност на хи-квадрат на Wald: Вижте индивидуалното въздействие на всяка променлива, като погледнете стойността на хи-квадрат на Wald. Изхвърлете незначителните променливи