Бръсначът на Окам, измерението на VC и теоремата за без безплатен обяд са много полезни принципи, които ще ни помогнат да мислим за недостатъчното и прекомерното оборудване в моделите за машинно обучение, приложени към крипто.

Напоследък прекарах много време в размисли за прекомерно и недостатъчно оборудване, когато става дума за прогнози за крипто активи. Наборите от крипто данни са много уникален проблем от гледна точка на машинното обучение. За всеки даден крипто актив, наличните набори от данни за потенциални прогнозни модели са относително малки и качеството не е добро. Освен това пазарът редовно ни изненадва с безпрецедентни поведения, които предизвикват всяко едно нещо, което един предсказуем модел е научил. В резултат на това повечето предсказуеми модели в крипто пространството не са в състояние да научат нищо или са недостатъчни или, когато работят, ние ставаме параноични относно факта, че те може да оптимизират за данните за обучение или да пренастройват. Тъй като прекарвам повече време в мислене за тези проблеми, има някои математически теории, които ми помогнаха да очертая много ясна картина за прекомерното и недостатъчното приспособяване. Днес бих искал да споделя някои от тези гледни точки, които, надявам се, представят различен възглед за това как да мислим за прекомерното и недостатъчното приспособяване в моделите за машинно обучение.

Двете най-лоши неща, които могат да се случат на модел за машинно обучение, е или да се изградят безполезни знания, или да се научи нищо подходящо от набор от данни за обучение. Помислете за модел, който се опитва да предвиди цената на ChainLink. Като се има предвид липсата на данни, вероятно е моделът да не научи нищо или наистина да оптимизира за съществуващите данни. В теорията на машинното обучение тези два феномена се описват с помощта на термините съответно пренастройване и недостатъчност и те представляват две от най-големите предизвикателства в съвременните решения за дълбоко обучение. Често обичам да сравнявам пренастройването на дълбокото обучение с човешки халюцинации, тъй като първото се случва, когато алгоритмите започнат да извеждат несъществуващи модели в наборите от данни. Недостатъчното приспособяване е по-близо до разстройство в обучението, което пречи на хората да придобият съответните знания за изпълнение на дадена задача. Въпреки важността си, няма лесно решение за пренастройване и приложенията за задълбочено обучение често трябва да използват техники, много специфични за отделните алгоритми, за да се избегне поведението на пренастройване. Този проблем става още по-страшен, ако вземете предвид, че хората също са невероятно бързи към пренастройване, което се превръща в субективни оценки на моделите за машинно обучение. Само си помислете колко стереотипи сте използвали през последната седмица.

Безспорно нашите халюцинации или илюзии за валидност присъстват някъде в наборите от данни, използвани при обучението на алгоритми за дълбоко обучение, което създава още по-хаотична картина. Интуитивно мислим за данни, когато работим върху алгоритми за дълбоко обучение, но има и друг също толкова важен и често забравян елемент от моделите за дълбоко обучение: знание. В контекста на алгоритмите за дълбоко обучение данните често се представят като постоянни записи в една или повече бази данни, докато знанието обикновено се представя като логически правила, които могат да бъдат валидирани в данните. В случай на крипто, данните могат да бъдат записите за търговия, докато знанието се отнася до научен модел от тези записи. Ролята на моделите за задълбочено обучение е да извеждат правила, които могат да бъдат приложени към нови набори от данни в същия домейн. За съжаление на агентите за задълбочено обучение, мощните изчислителни възможности не са пряк отговор на изграждането на знания и възниква прекомерно оборудванеF

Предизвикателства като прекомерно и недостатъчно оборудване са свързани с капацитета на модел за машинно обучение да изгради подходящи знания въз основа на първоначален набор от примери за обучение. Концептуално недостатъчното приспособяване е свързано с неспособността на алгоритъма за машинно обучение да изведе валидни знания от първоначалните данни за обучение (напр. модел за прогнозиране на биткойн, който може да научи всичко от записите на блокчейн). Обратно на това, прекомерното приспособяване се свързва с модел, който създава хипотези, които са твърде общи или абстрактни, за да доведат до практични (напр.: прогнозен модел на биткойн, който оптимизира за сценарии като срива през март или скорошната липса на волатилност и не може да се адаптира към новите пазарни условия). Казано с по-прости думи, недостатъчно подходящият модел е някак си глупав, докато прекалено пълният модел е склонен да халюцинира (представете си неща, които не съществуват) :).

Капацитет на модела: Основният елемент за количествено определяне на свръх и недостатъчното оборудване в моделите за машинно обучение

Нека се опитаме да формулираме проста методология, за да разберем прекомерното и недостатъчното приспособяване в контекста на алгоритмите за машинно обучение.

Типичен сценарий за машинно обучение започва с първоначален набор от данни, който използваме за обучение и тестване на ефективността на алгоритъм. Нека помислим за прогнозен модел на биткойн, който използва записи в книгата с поръчки на борсата. Статистическата мъдрост предполага, че използваме 80% от набора от данни, за да обучим модела, като същевременно запазим останалите 20%, за да го тестваме. По време на фазата на обучение нашият модел ще доведе до известно отклонение от данните за обучение, което често се нарича грешка в обучението. По същия начин, отклонението, получено по време на тестовата фаза, се нарича Тестова грешка. От тази гледна точка ефективността на модела за машинно обучение може да се прецени по способността му да изпълнява две основни неща:

1 — Намаляване на грешката при обучение

2 — Намаляване на разликата между грешките при обучение и теста

Тези две прости правила могат да ни помогнат да разберем понятията за прекалено и недостатъчно оборудване. По принцип недостатъчното приспособяване възниква, когато моделът не отговаря на правило #1 и не е в състояние да получи достатъчно ниска грешка от набора за обучение. Тогава се получава свръхнастройване, когато даден модел не отговаря на правило #2 и разликата между грешките при теста и обучението е твърде голяма. Ще видиш? две прости правила, които ни помагат да определим количествено нивата на пренастройване и недостатъчно напасване в алгоритмите за машинно обучение.

Друга супер важна концепция, която изключително много помага на практикуващите машинно обучение да се справят с недостатъчното и прекомерното оборудване, е понятието Капацитет. Концептуално Капацитетът представлява броя на функциите, които моделът на машинно обучение може да избере като възможно решение. например моделът на линейна регресия може да има всички полиноми от степен 1 ​​във формата y = w*x + bкато капацитет (което означава всички потенциални решения).

Капацитетът е невероятно подходяща концепция за модели на машинно обучение. Технически, алгоритмите за машинно обучение се представят най-добре, когато имат капацитет, който е пропорционален на сложността на задачата и входа на набора от данни за обучение. Моделите за машинно обучение с нисък капацитет са непрактични, когато става въпрос за решаване на сложни задачи и са склонни да не отговарят на изискванията. По същия начин моделите с по-висок капацитет от необходимия са склонни да прекалят.Ако трябваше да изложим сценария на нашия предсказуем модел на биткойн с техника за дълбоко обучение, трябва да очакваме по-висок капацитет, отколкото ако използвахме линеен регресионен модел. От тази гледна точка Капацитетът представлява мярка, чрез която можем да оценим склонността на модела към недостатъчно или прекомерно оборудване.

Три теории за разбиране на прекомерното и недостатъчното приспособяване в моделите за машинно обучение

Бръсначът на Окам

Принципът на бръснача на Окам е това, което се случва, когато философите се включат в машинното обучение :) Произходът на тази древна философска теория датира някъде между 1287 и 1347 г., свързвайки я с философи като Птолемей. По същество теорията за бръснача на Окам гласи, че ако имаме конкуриращи се хипотези, които обясняват известни наблюдения, трябва да изберем най-простата. От Шерлок Холмс до Монк бръсначът на Окам е вездесъщ в детективи от световна класа, които често следват най-простата и най-логична хипотеза, за да разкрият сложни мистерии.

Бръсначът на Окам е мъдър философски принцип, който трябва да следваме в ежедневието си, но приложението му в машинното обучение в най-добрия случай води до противоречия. По-простите хипотези със сигурност са предпочитани от изчислителна гледна точка в свят, в който алгоритмите са известни с това, че са скъпи за ресурси. Освен това по-простите хипотези са изчислително по-лесни за обобщаване. В случай на крипто модели, много практици се опитват да предпочитат по-прости модели за машинно обучение, тъй като те са по-лесни за тълкуване. Въпреки това, предизвикателството с изключително простите хипотези е, че те често водят до твърде абстрактни, за да се моделират сложни сценарии. В резултат на това модел с достатъчно голям обучителен набор и приличен размер на измеренията трябва да избере достатъчно сложна хипотеза, която може да доведе до ниска грешка при обучение. В противен случай бързо ще бъде недостатъчно подходящо.

VC измерението

Бръсначът на Окам е хубав принцип на пестеливост, но тези абстрактни идеали не се превеждат директно в модели за машинно обучение, които живеят във вселената на числата. Това предизвикателство беше адресирано от основателите на статистическата теория Вапник и Червонекис (VC), които излязоха с модел за количествено определяне на капацитета на статистически алгоритъм. Известна като VC измерение, тази техника се основава на определяне на най-големия брой mот който съществува тренировъчен набор от mразлични xточки, които целевата функция за машинно обучение може да етикетира произволно.

Измерението VC е един от крайъгълните камъни на статистическото обучение и е използвано като основа на много интересни теории. Например, VC Dimension помага да се обясни, че разликата между грешката на обобщаване и грешката на обучението в модел на машинно обучение намалява с увеличаване на размера на набора за обучение, но същата разлика се увеличава с нарастването на капацитета на модела. С други думи, моделите с големи набори за обучение е по-вероятно да изберат приблизително правилната хипотеза, но ако има твърде много потенциални хипотези, тогава е вероятно да се окажем с грешната.В случай на крипто предсказване модели, VC Dimension ще предпочита модели, които използват по-големи и по-богати набори от данни, като записи за търговия, пред по-малки и по-нови набори от данни, като деривати.

Теоремата за липса на безплатен обяд

Бих искал да завърша тази статия с един от любимите ми принципи на машинното обучение, свързан с проблема с прекомерното оборудване и недостатъчното оборудване. Теоремата за липса на безплатен обяд гласи, че осреднено за всички възможни генериращи данни разпределения, всеки класификационен алгоритъм има приблизително еднакъв процент грешки при класифицирането на ненаблюдавани преди това точки. Харесва ми да мисля за теоремата за без безплатен обяд като за математическата контратеория на ограничението на алгоритмите за машинно обучение, които ни принуждават да обобщаваме полу-абсолютни знания, използвайки краен набор за обучение. В логиката, например, извеждането на универсални правила от краен набор от примери се счита за „нелогично“. За практикуващите машинно обучение теоремата за без безплатен обяд е друг начин да се каже, че нито един алгоритъм не е по-добър от други, като се имат предвид достатъчно наблюдения. С други думи, ролята на модела за машинно обучение не е да намери универсална функция за обучение, а по-скоро хипотезата, която отговаря по-добре на целевия сценарий. В случай на прогнози за крипто активи, моделите, които се представят добре за записи в големи борси, може да не са най-добрите решения за набори от данни от по-малки борси. По същия начин, модели, които работят добре с големи блокчейн набори от данни като биткойн, може да не работят, когато се прилагат към по-нови блокчейн като биткойн кеш.

Прекомерното и недостатъчното оборудване остават две от най-сериозните предизвикателства в приложенията за машинно обучение. Теории като измерението на VC, бръснача на Окам и теоремата за без безплатен обяд осигуряват силна теоретична основа за анализиране на корена на условията за прекомерно и недостатъчно приспособяване в решенията за машинно обучение. Разбирането и количественото определяне на капацитета на модел за машинно обучение остава основната стъпка за разбиране на неговата склонност към прекомерно или недостатъчно приспособяване.