Тази публикация е за въведение в различни видове регресионен анализ в машинното обучение. Регресионният анализ помага по два начина: единият помага при прогнозирането на стойността на зависимата променлива за независими променливи, а другият е намирането на връзка между зависими и независими променливи. И така, нека започнем с дефиницията.

Какво е регресионен анализ?

Регресионният анализ е техника за прогнозно моделиране в машинното обучение, която дава връзката между зависимите и независимите променливи. Например, ако искаме да прогнозираме броя на произшествията въз основа на водачи, които пият, маркировките в конкретен предмет въз основа на броя часове, прекарани в това и т.н., са случаи на употреба, подходящи за регресия.

Регресионният анализ се използва и в XR, за да направи проследяването на ръцете и движението по-стабилно и ефективно.

Съвет за спестяване на време! :) Целта на тази публикация е просто да изброим всички често срещани видове регресионен анализ с тяхната основна дефиниция.

Нека проучим различни типове регресионен анализ:

1. Линейна регресия

Линейната регресия установява връзка между една или повече независими променливи и зависима променлива с помощта на линейно уравнение.

Y=a+b*X + e, където a е пресечна точка, b е наклон на линията и e е член на грешката.

2. Логистична регресия

Логистичната регресия се използва за двоична класификация, тя предвижда вероятността за класа или определени събития и е ограничена до двоичен или дихотомичен резултат. Логистичната регресия анализира връзката между една или повече независими променливи и класифицира данните в отделни класове.

Уравнението на логистичната регресия е:

Където x е входна стойност, y е изход, b0 е пресечна точка и b1 е член на коефициента

3. Полиномиална регресия

Линейната регресия установява връзка между една или повече независими променливи и зависима променлива, използвайки полиномно уравнение на n-та степен.

y= b0+b1x1+ b2x12+ b2x13+...... bnx1n

Преди да преминем към регресия с ръбове и ласо, нека обсъдим какво е регуляризация, когато става въпрос за обучение на модел, ключовите проблеми, които срещаме, са прекалено и недостатъчно прилягане.

Регулирането е техника за справяне с прекомерното напасване в моделите, ръбът и регресията с ласо са два най-често срещани типа техники за регулиране.

4. Ласо регресията

Lasso означава най-малко абсолютно свиване и оператор за избор, известен също като L1 регулация. Ласо намалява сложността на модела и мулти-колинеарността чрез свиване на коефициента. Взема величината на коефициента като наказание и също така се използва за избор на модел.

5. Гребенова регресия

Докато при регресията на Ridge, квадратът на коефициента се приема като наказателен член и не се използва за избор на модел. Като ласо, наречено L1 регулация, подобно на този ръб, наречен L2 регулация.

6. Квантилна регресия

Квантилната регресия установява връзка между една или повече независими променливи и специфични процентили, които също се наричат ​​квантил на зависима променлива, най-вече медиана. Също така е приложимо, когато предположенията за линейна регресия са неуспешни, тъй като квантилната регресия не прави никакви предположения за разпределението на зависимата променлива. Квантилната регресия установява връзка между една или повече независими променливи и специфични процентили, които също се наричат ​​квантил на зависима променлива, най-вече медиана. Също така е приложимо, когато предположенията за линейна регресия са неуспешни, тъй като квантилната регресия не прави предположения за разпределението на зависимата променлива.

7. Байесова линейна регресия

При байесовата линейна регресия линейната регресия се формулира с помощта на разпределение на вероятностите, а не на оценка с една точка, което означава, че изходът Y се извлича от разпределение на вероятностите, а не оценка на единична стойност.

Моделът на линейна регресия на Байес използва уравнение:

Където изходът y се генерира от функцията на разпределение на Гаус на средната стойност и дисперсията. Когато бета транспонирането, което е транспониране на матрицата на теглото, се умножава с матрица на независима променлива или матрица на предиктор и дисперсията се умножава с матрица на идентичност, тъй като това е многоизмерно формиране на матрица.

8. Регресия на основните компоненти

Регресията на основните компоненти се използва за оценка на неизвестните коефициенти на регресия в стандартен линеен регресионен модел. В PCR основните компоненти на обяснителните променливи се използват като регресори на мястото на регресия на зависимата променлива директно върху обяснителните променливи.

Обикновено се използва само подмножество от всички основни компоненти за регресия, което прави PCR вид регуляризирана процедура, а също и вид оценител. Често главните компоненти с по-високи дисперсии (тези, базирани на собствени вектори, съответстващи на по-високите собствени стойности на матрицата дисперсия-ковариация на извадката на обяснителните променливи) се избират като регресори. Въпреки това, за целите на прогнозиране на резултата, основните компоненти с ниски вариации също могат да бъдат важни, в някои случаи дори по-важни.

9.Частична регресия на най-малките квадрати

PLS регресията е метод за статистическо моделиране, който има връзка с регресията на основните компоненти; вместо да намира хиперравнини на максимална дисперсия между отговора и независимите променливи, той намира линеен регресионен модел чрез проектиране на прогнозираните променливи и наблюдаемите променливи в ново пространство. Тъй като както X, така и Y данните се проектират в нови пространства, PLS фамилията методи е известна като двулинейни факторни модели. Дискриминантният анализ на частични най-малки квадрати (PLS-DA) е вариант, използван, когато Y е категорично.

10. Еластична нетна регресия

Еластичната мрежа е друг вид модификация в линейната регресия, която наказва модела на линейна регресия, който включва както L1, така и L2 наказания по време на обучение. Осигурен е хипер параметър „alpha“, за да се присвои колко тегло се дава на всяко от наказанията L1 и L2. Алфа е стойност между 0 и 1 и се използва за претегляне на приноса на наказанието L1, а едно минус алфа стойността се използва за претегляне на наказанието L2.

Еластична нетна санкция, дадена от: elastic_net_penalty = (alpha * l1_penalty) + ((1 — alpha) * l2_penalty)

11.Поддържайте векторна регресия

Това е техника за контролирано машинно обучение, която се използва за прогнозиране на дискретни стойности. Принципът зад SVR е същият като в SVM, но SVR намира най-добрата хиперравнина, която има максимален брой точки като най-подходяща линия в SVM. За практическо прилагане на опорна векторна регресия върху набор от данни от реалния свят се използват линейни SVR и SGD регресорни модули.

12. Регресия на дървото на решенията

Регресията на дървото на решенията е използване на дървото на решенията за непрекъснати изходни променливи, основно регресията на дървото на решенията наблюдава характеристиките на набор от данни/случай на използване, за да обучи модел в структурата на дърво, за да предскаже данни в бъдеще, за да произведе смислен непрекъснат изход. Например - генериране на печалби въз основа на данни за продажбите.

13. Регресия на произволна гора

Подобно на дърветата на решенията, използвани за регресия, произволната гора, която в основата си е метод на ансамбъл с дървета на решения в пакетиране, също се използва за решения за регресия. Ансамбълното обучение е техника, която комбинира прогнози от множество алгоритми за машинно обучение, за да направи по-точна прогноза от един модел.

Алгоритъмът за регресия на произволна гора е често използван модел поради способността му да работи добре за големи и повечето видове данни. Той създава всяко дърво от различна извадка от входни данни. Във всеки възел се избира различна проба от функции за разделяне и дърветата работят паралелно без никакво взаимодействие. След това прогнозите от всяко от дърветата се осредняват, за да се получи един резултат, който е прогнозата на Случайната гора.

14. Поетапна регресия

Поетапната регресия е метод, който итеративно изследва статистическата значимост на всяка независима променлива в линеен регресионен модел. Това е стъпка по стъпка итеративно изграждане на регресионен модел, което включва избора на независими променливи, които да бъдат използвани в окончателния модел. Това включва последователно добавяне или премахване на потенциални обяснителни променливи и тестване за статистическа значимост след всяка итерация.

15.Ординална регресия

Ординалната регресия установява връзка между една или повече независими променливи и зависима променлива, когато зависимата променлива е ординална по природа или се използва за прогнозиране на изхода за подредени стойности. r Пример за такива зависими променливи са оценките за конкретен ученик, тежестта на заболяването на пациента (леко, тежко, нормално).

16. Регресия на Поасон

Поасоновата регресия установява връзка между една или повече независими променливи и зависима променлива, когато зависимата променлива има данни за преброяване.

Работи само когато:

· Зависимата променлива има Поасоново разпределение.

· Броят не може да бъде отрицателен.

· Този метод не е подходящ за не цели числа

Примерни случаи на използване, предвиждащи броя обаждания в обслужването на клиенти за конкретна продуктова линия.

17. Отрицателна биномна регресия

Подобно на регресията на Поасон, тя също се занимава с данни за преброяване. Възниква въпросът „по какво се различава от регресията на Поасон“. Отговорът е, че отрицателната биномна регресия не предполага разпределение на броя с дисперсия, равна на средната му стойност. Докато регресията на Поасон приема дисперсията, равна на нейната средна стойност.

18. Квазипоасонова регресия

Квазипоасоновата регресия е алтернатива на отрицателната биномна регресия. Може да се използва и за свръхразпръснати данни за преброяване. И двата алгоритъма дават подобни резултати, има разлики в оценката на ефектите на ковариатите. Дисперсията на квази-Поасон модел е линейна функция на средната стойност, докато дисперсията на отрицателен биномен модел е квадратична функция на средната стойност. И е в състояние да се справи както с прекомерна, така и с недостатъчна дисперсия.

19. Регресия на Кокс

Поасоновата регресия установява връзка между една или повече независими променливи и зависима променлива, когато зависимата променлива е тип данни от време до събитие. Пример за такъв случай на използване е „Време от отварянето на акаунта от клиента до изчерпване“.

20. Тобитова регресия

Използва се за оценка на линейните връзки между променливите, когато съществува цензуриране в зависимата променлива. Цензуриране означава, когато наблюдаваме независима променлива за всички наблюдения, но знаем истинската стойност на зависимата променлива само за ограничен диапазон от наблюдения.

Стойностите на зависимите в определен диапазон се отчитат като една стойност. Подробно обяснение на цензурирането е дадено по-долу -

  1. Правилно цензуриране възниква, когато интересуващото ни събитие не се случи преди края на изследването. Проучването не може да изчака събитие от субект преди края на разглеждания период на изследване. Да предположим, че изграждате модел на изчерпване на клиенти, в който зависимата променлива е двоична (Attired или все още в компанията). За тези клиенти, които все още са в компанията (не са облечени), дори когато обучението приключи (2 години), са правилно цензурирани.
  2. Лявото цензуриране е, когато интересуващото ни събитие вече е настъпило преди записването. Това се среща много рядко

So,

Тъй като този списък достига до края си, надявам се, че списъкът ви дава кратко разбиране за различните видове регресионен анализ, често използвани в машинното обучение, за решаване на различни бизнес проблеми.

Благодаря ви читатели!

Препратки :





https://machinelearningmastery.com/elastic-net-regression-in-python/





https://www.spiceworks.com/tech/artificial-intelligence/articles/what-is-logistic-regression/