Регуляризация и геометрия

Аз. Компромис на отклонениеотклонение

Когато извършваме статистическо моделиране, целта не е да изберем модел, който отговаря на всички точки от данни за обучение и да получим най-малката грешка в данните за обучение. Целта е да се даде на модела способността да обобщава добре нови и невиждани данни.

Тъй като все повече и повече параметри се добавят към модел, сложността на модела се увеличава, т.е. той може да побере повече шум в данните за обучение и води до пренастройване. Това означава, че увеличаваме дисперсията и намаляваме отклонението на модела. От фигурата по-горе, ако продължим да повишаваме сложността на модела, грешката на генерализацията в крайна сметка ще премине оптималното място и ще продължи да нараства.

В заключение, ако сложността на нашия модел надхвърли оптималната точка, рискуваме да попаднем в зоната на пренастройване; докато ако сложността е под оптималната точка, ние сме в зоната на недостатъчно прилягане.

Регулирането е техника, която помага да се предотврати попадането на статистическия модел в зоната на пренастройване. Това се постига чрез възпрепятстване на сложността на модела.

II. Регулиране

Линейна регресия

Това е уравнението за проста линейна регресия.

Нашата цел е да намерим набора от бета, за да минимизираме остатъчната сума на квадратите (RSS).

L2 Регулиране

Регресионен модел, който използва L2 регулация, се нарича също Ridge Regression. По отношение на линейната регресия, вместо просто минимизиране на RSS. Добавяме още една част към играта, като имаме ограничение за бета версиите.

„s“ може да се разбира като бюджет за бета версиите. Ако искате да направите една от първите бета големи, втората бета трябва да е малка и обратно. Това се превръща в състезание и тъй като имаме повече бета версии, маловажните ще бъдат принудени да бъдат малки.

Благодарение на квадратния член, RSS уравнението всъщност ни дава геометрията на елипса. Черната точка е набор от бета, използвайки нормалното уравнение, т.е. без регуляризация. Червеният кръг съдържа всички комплекти бета версии, които можем да си позволим. Червената точка е последната бета версия на Ridge Regression, която е най-близо до черната точка, докато е в нашия бюджет. Червената точка винаги ще бъде на границата на ограничението. Единственият път, когато постигнете червена точка вътре в ограничението, е когато решението за нормалното уравнение, т.е. решението за линейна регресия без регуляризация, вече удовлетворява ограничението.

L1 Регулиране

Регресионен модел, който използва L1 регулация, се нарича още Ласо (най-малко абсолютно свиване и оператор за избор) регресия. Целта на Lasso е подобна на Ridge с изключение на това, че ограничението става:

Lasso също така ни предоставя красива геометрия, която идва с уникални свойства.

Наборът от бета версии, които можем да си „позволим“ с L2 регулация, се крие в един диамант. Червената точка е в ъгъла на диаманта, което задава една от бетите на 0.

Ами ако червената точка е на ръба на диаманта вместо това, т.е. елипсата докосва диаманта на ръба? Следователно нито една от бетите няма да бъде 0. Въпреки това, диамантът в 2-D пространството е специален случай, при който нито една от бетите не става 0, ако червената точка е на ръба.

Нека разгледаме случая, в който имаме 3 бета версии. Геометрията за ограничението става:

Фигурата по-горе се състои от 6 върха и 8 ръба. Ако червената точка лежи на ръб, една бета ще бъде зададена на 0. Ако лежи на върхове, две бета ще бъдат зададени на 0. С увеличаването на измерението броят на върховете и ръбовете също се увеличава, което го прави по- вероятно елипсата ще бъде в контакт с диаманта на едно от тези места. Като се има предвид това, Lasso има тенденция да работи по-добре в по-високо измерение.

Разлики между L1 и L2 Регулиране

Ридж регресията е разширение за линейна регресия, която налага бета коефициентите да бъдат малки, намалявайки въздействието на неподходящите характеристики. По този начин статистическият модел няма да пасне на целия шум в данните за обучение и да попадне в зоната на пренастройване.

Регресията с ласо носи някои уникални свойства на масата поради красивата си геометрия. Някои от бета-версиите ще бъдат зададени на 0, което ще ни даде рядък резултат. Можем също да използваме Lasso за избор на функции. Въпреки че техниките за избор на характеристики като Най-добро подмножество, Напред стъпково или Назад стъпково може да са неефективни във времето, Lasso ще достигне по-бързо до окончателното решение.

III. Заключението

Статистически модел, който с висока сложност може да бъде склонен към пренастройване. В тази статия въведох две техники за регулиране, за да обезсърча модела да пасне на целия шум в данните за обучение. Освен това обясних техните свойства и разлики с помощта на геометрията.

Това е краят на статията ми! Прекрасен ден хора :)

Изображения:

[1] Даниел Сондърс, The Bias-Variance Tradeoff (2017)