Разбиране на ласото и регулирането на гребена в машинното обучение

Когато използвате алгоритми за контролирано обучение върху набор от данни в машинно обучение, ще има случаи, в които моделът се представя изключително добре на данни от влака, но може да не работи добре и може също да има висок процент грешки, когато се тества върху нови данни. За това са виновни множество фактори, включително колинеарност, разлагане на дисперсии на отклонение и прекомерно моделиране на данни от влаковете.

В тази статия ще разгледаме два различни вида техники за регулиране: ласо и регулиране на хребета. Освен това ще обсъдим отклонение, вариация, недостатъчно и прекомерно оборудване.

Какво е регулация?

Регулирането е един от методите за подобряване на способността на нашия модел да функционира върху ненаблюдавани данни чрез изхвърляне на по-малко значимите характеристики. Той се стреми да повиши точността на модела, като същевременно минимизира загубата при валидиране. Чрез санкциониране на модела с голяма дисперсия и намаляване на бета коефициентите до нула, той предотвратява прекомерното оборудване. Недостатъчно и прекомерно оборудване

Отклонение и дисперсия

Пристрастност

Основните презумпции, които данните използват за опростяване на целевата функция, са известни като отклонения. Наистина, отклонението прави данните по-обобщаеми и моделът е по-малко чувствителен към изолирани точки от данни. Тъй като желаната функция е по-малко сложна, тя съкращава и времето за обучение. Голямото отклонение показва, че целевата функция се приема за по-надеждна. Понякога това води до недостатъчна годност на модела.
Алгоритмите линейна регресия и логистична регресия са примери за алгоритми с голямо отклонение.

Разлика

Дисперсията е вид грешка, която се случва в машинното обучение в резултат на чувствителността на модела към малките вариации в набора от данни. Поради значителната вариация, алгоритъмът ще моделира шума и отклоненията в набора за обучение. Прекомерното оборудване е терминът, който най-често се използва за описание на това. Когато се оценява на нов набор от данни, моделът в този случай не предоставя точна прогноза, тъй като по същество научава всяка точка от данни.

Балансираният модел ще има ниско отклонение и ниска дисперсия, докато високото отклонение и голямото отклонение ще доведат до недостатъчно и прекомерно приспособяване.

Ниско отклонение - Средната прогноза е много близо до желаното число.

Голямо отклонение - Когато прогнозите и действителните стойности варират твърде много.

Ниска вариация – Точките с данни са малки и рядко се отклоняват значително от средната стойност.

Висока вариация - Разпръснати точки от данни, които значително се отклоняват от средната стойност и други точки от данни.

Изискваме подходящо съотношение на пристрастие към вариация, за да произведем прилично съвпадение.

Недостатъчно и прекомерно оборудване

Недостатъчно оборудване

Недостатъчното приспособяване се случва, когато моделът не е в състояние да обобщи правилно новите данни, защото не е научил правилно моделите в данните за обучение. По отношение на тренировъчните данни, недостатъчно годният модел се представя зле и прави лоши прогнози. Когато има голямо отклонение и ниско отклонение, възниква недостатъчно приспособяване.

Прекомерно оборудване

Когато даден модел се представя забележително добре при тренировъчни данни, но лошо при тестови данни, се казва, че той е прекален (свежи данни). В този случай моделът за машинно обучение улавя шума и тънкостите в данните за обучение, което се отразява отрицателно на това колко добре се представя моделът върху тестовите данни. Ниското отклонение и високата променливост може да доведат до прекомерно оборудване.

Можете да прочетете цялата ми статия за недостатъчното и прекомерното оборудване в края на статията.

Два вида регулация

  1. Ласо Регулиране
  2. Регулиране на билото

Ласо Регулиране (L1)

Регулирането на L1 се извършва с помощта на този метод за регулиране. За разлика от Ridge Regression, той променя RSS, като включва наказание (количество свиване), равно на сбора от абсолютните стойности на коефициентите.
Както се вижда в уравнението по-долу, Ласо (най-малко абсолютно свиване и оператор за избор) наказва абсолютната величина на коефициентите на регресия по начин, подобен на този на регресията на Ридж. В допълнение, той има добри резултати за намаляване на променливостта и повишаване на прецизността на линейните регресионни модели.

Ограничение на регресията с ласо

  • С различни типове данни Lasso понякога има затруднения. Дори ако всички предиктори са значими, Lasso ще избере най-много n предиктори като различни от нула, ако броят на предикторите (p) е по-голям от броя на наблюденията (n) (или може да се използва в тестовия набор).
  • Регресионният метод LASSO избира една от силно колинеарните променливи на случаен принцип, когато има две или повече, което е лошо за интерпретацията на данните.

Регулиране на билото (L2)

Този метод извършва L2 регулация. Основният подход, използван за това, променя RSS чрез добавяне на наказание, което е равно на квадрата на величината на коефициентите. Въпреки това се смята, че това е метод, който се използва, когато данните показват мултиколинеарност (независимите променливи са силно корелирани). Въпреки че оценките на най-малките квадрати (OLS) в мултиколинеарността са безпристрастни, техните огромни вариации карат наблюдаваната стойност да се отклонява много от действителната стойност. Риджовата регресия намалява грешките в качеството, като променя до известна степен оценките на регресията. Обикновено използва параметъра на свиване, за да се справи с проблема с мултиколинеарността. Нека сега разгледаме уравнението по-долу.

Тук имаме работа с уравнение от две части. Първият означава член с най-малък квадрат, а последният е ламбда, което е сумата от β2 (бета-квадрат), където β е коефициентът. За да се намали размерът на параметъра и да му се даде много ниска дисперсия, това се добавя към члена на най-малкия квадрат.

Ограничение на хребетната регресия

Тъй като ръбовата регресия никога не води до нулев коефициент, а просто го минимизира, тя намалява сложността на модела, без да намалява броя на променливите. Следователно този модел не е подходящ за намаляване на характеристиките.



Ако харесвате моята статия и усилията ми към общността, можете да ме подкрепите и насърчите, като просто купите кафе за мен

Заключение

добре, имам добри новини за вас, бих донесъл няколко още статии за обясняване на концепции и модели за машинно обучение с кодове, така че оставете коментар и кажете колко се вълнуваш от това