Моето пътуване с прилагане на AI към конни надбягвания

Моето пътуване в машинното обучение започна през лятото на 2016 г. Всичко започна на барбекю парти в дома на лелята и чичото на годеника ми в северен Стокхолм. Седях отвън на една градинска маса заедно с по-възрастните мъже от нейното семейство. Това са стари и жилави финландци, нейният дядо (96 години) се бие във войната срещу руснаците. Както можете да си представите, като ново момче в блока, аз се държах сдържан и си затварях устата. Обсъждаха най-голямото си забавление — състезанията с впряг.

Състезанията с хамути са един от най-големите спортове в Швеция и Финландия. Това е вид конни надбягвания, но различни от обикновените конни надбягвания. При състезания с впряг водачът не седи върху коня. Вместо това водачът седи на каруца, която е прикрепена към коня. На конете не им е позволено да тичат толкова бързо, колкото искат. Ако кон галопира, той е дисквалифициран. Конете трябва да тичат в тръс. Подобно е на състезанията по ходене, които виждате на Олимпийските игри, където състезателите нямат право да бягат. Спорт, свързан колкото с контрол, толкова и със скорост.
Състезанията с хамути са популярни заради залаганията.

През 2018 г. зашеметяващите 16 милиарда шведски крони бяха заложени в билети за залагания. Това се равнява на около 1,8 милиарда щатски долара.
Ако състезанията с впряг бяха държава, тогава страната на състезанията с впряг щеше да се класира като 170-ата най-голяма в света. Малко по-малък от Белиз.

Обратно към барбекю партито. Седях и слушах как тези мъже обсъждат предстоящите състезания. Бях в полусъзнание и влизах и излизах от разговора.
Тогава изведнъж ме осени една идея. Най-добрата идея в живота ми. Поне така си мислех тогава.

AI и състезания с хамути

Това беше лятото на 2016 г. Няколко месеца по-рано изкуствен интелект, наречен AlphaGo, победи най-добрите Go-играчи в света. Беше из всички новини.
Тази китайска настолна игра е толкова сложна, че досега е избягвала да бъде моделирана. В края на 2015 г. това се промени. Но това не беше първият път, когато компютър победи хора в игра като тази. През 1997 г. изкуствен интелект, наречен Deep Blue, победи Гари Каспаров, гросмайстора по шах. Изкуственият интелект на IBM Watson разби двама големи шампиони на Jeopardy през 2011 г.
И така, в онзи топъл летен ден това беше идеята, която ме осени. Ако изкуственият интелект може да победи най-умните играчи в тези игри, тогава залагането на състезания с впряг трябва да е разходка в парка.

Залагането на състезания с впряг не е като да играете в казиното. В казиното не можете да спечелите. Рано или късно ще загубите. Вероятно по-рано. Изправяте се срещу цялата сила на статистиката. Не може да има печеливши стратегии.
В състезанията с хамути вие играете срещу всички останали играчи. Вие не играете къщата. Шансовете за победа на даден кон са пряко свързани с количеството пари в него.
На теория е възможно да се излезе с печеливша стратегия. Просто трябва да е по-добър от подходите на всички останали.

Вторият факт, който подкрепяше тази идея, бяха невероятните количества налични данни. Всеки детайл за всяко състезание се записва и е достъпен онлайн. Всичко, което бихте искали да знаете за конете, шофьорите, треньорите, пистите, метеорологичните условия и рекордите. С около 10 до 15 състезания на ден в Швеция, това е рай за специалист по данни. Можете дори да намерите видеоклипове на конете, които загряват преди състезанието. Налично е пълното родословие на всеки кон. Пълните им родословни дървета са налични онлайн!

Добре, че конете обикновено не знаят за GDPR.

Но фактът, който ме накара да съм най-уверен в тази идея, беше, че състезанията с хамути не са ни най-малко секси.
Ако сте бъдещ изследовател на машинното обучение, това е в спортните залагания, тогава не гледате хамути състезание. Може да гледате футбол, баскетбол, бейзбол или дори редовни конни надбягвания. Но не състезания с впряг.
Моето разследване потвърди това. Нито едно споменаване на състезания с впряг.

Това беше идеалната настройка за прилагане на AI. Единственият проблем беше: не знаех нищо за изкуствения интелект.

Учене рано сутрин

И така, започнах да уча.

Започнах да се събуждам рано сутрин, за да имам няколко часа преди семейството ми да се събуди и трябваше да тръгвам за девет до пет. В пет сутринта ходех на онлайн курсове и четях книги.

Прекарах цялата си семейна ваканция в Гърция, за голямо мое семейно огорчение, препрочитайки старите си статистически книги от университета. Чета книги за дълбоко обучение, наука за данни и извличане на данни. Научих Python,TensorFlow и Sci-kit learn. Опитвах се да погълна възможно най-много за възможно най-кратко време, за да реша този конкретен проблем. Посещавах срещи, семинари, лекции и ходех на конференции.

Това, което открих, ме изненада. Не беше толкова трудно да започна. Бих могъл да постигна много с много малко инвестирано време. Разбира се, във всеки университет по света има 5-годишни магистърски програми, преподаващи тези неща. Сигурен съм, че това са страхотни образования. Но подобно обучение не беше необходимо, за да започна да решавам проблема си. Машинното обучение и AI са много повече от математика. Има и майсторство и инженерство. Теорията е едно, но за да се създаде AI или приложение за машинно обучение от нулата, са необходими инженерни умения. Добре, че тази част от пъзела вече я бях направил — с образование по софтуерно инженерство и десет години опит в изграждането на корпоративен софтуер.

Нямах нужда да разбирам всички тънкости на случващото се под капака. Входната бариера беше много по-ниска, отколкото очаквах. Беше възможно за мен, а бих предположил и за повечето, да скоча веднага.

Печеливша стратегия

Обратно към състезанията с хамути.
Шансовете конкретен кон да спечели състезание са пряка функция на сумата пари на този кон. Което означава, че коефициентите отразяват консенсуса на залагащите. Средният Джо. Джон и Джейн Доу.
И така, колко често са правилни? Колко често консенсусът е правилен? Колко често любимият кон печели състезание?

Разгледах всички състезания в Швеция от 1995 г. и открих, че любимият кон печели около 37% от времето. Това не е зле.
Този номер стана моя фиксация. Мания. Това беше номерът за победа. Единственото нещо, за което мислех в продължение на няколко месеца.
Докато гледах тези исторически състезания, симулирах и залагане на долар на всяко от тях. Избиране на любимия кон, който да спечели във всяко едно от тези състезания. Резултатът беше потресаващ. Една фиктивна сметка за залагания би донесла сериозна печалба с тази проста стратегия. Дори не симулирах реинвестиране на печалбите, тъй като в света нямаше да има достатъчно пари за покриване на печалбите. Това беше праволинейно плоско залагане от долар на състезание в около 26 000 състезания.

Залагането на любимия кон във всяко състезание е печеливша стратегия. Как може да бъде? Това изобщо възможно ли е?

Честно казано, не знам. Но имам теория.
Коефициентите се колебаят до момента, в който състезанието започне да отразява залаганията, които се провеждат. Коефициентите, които се записват и публикуват, които използвах, са последните цитирани коефициенти преди началото на състезанието. Някой на състезателната писта, който прави своите залози минути преди състезанието, ще има повече информация и ще направи по-добри прогнози, отколкото някой, който залага седмица предварително.
За да се възползвате от тази стратегия, ще ви трябва бърза кола. Ще шофирате из цяла Швеция всеки ден, ще бъдете на пистите и ще бъдете последният човек, който ще залага. Между другото, не правете залога си твърде голям, тъй като ще повлияете на самите шансове.

В крайна сметка животът не е толкова привлекателен.

Моделиране на проблема

В Швеция има около 10-15 състезания на ден. През цялата година. Имах данни от 1995 г., което означаваше, че съм имал общо около 100 000 състезания. Имаше данни за треньорите, конете, водачите и пистите. Получих данни за метеорологичните условия в състезателните дни, качеството на състезателните писти и много други. Използвах API на Google Maps, за да изчисля колко разстояние трябва да изминат конете и техните водачи в деня на състезанието. Изчистих данните. Създадох сложен тръбопровод за данни с нормализиране, импутиране, увеличаване и много други трикове на търговията.
През първите няколко седмици достигнах 20%. Което ме зарадва. Това означаваше, че машината ми имаше правилния кон за победа във всяко пето състезание. Не е зле.
След като го променях за няколко месеца, го вдигнах до 32%. След това скочи до 47%. Седмица по-късно — 50%
В този момент бях развълнуван! Скъпа — стягай си багажа, преместваме се в Мавриций.

Когато се успокоих малко и си спомних да дишам, моят префронтален кортекс се върна онлайн. Възможно ли е машина или който и да е по този въпрос да може да предвиди правилния кон, който да спечели половината от времето? Случайността не играе ли по-важна роля от това? Нещо трябваше да не е наред… И наистина, нещо не беше наред.

Когато извършвах предварителната обработка на данните си, случайно бях извършил един от основните грехове на машинното обучение.

Обикновено това, което правите, е да разделите набора от данни на различни части. Една от тези части използвате за обучение на вашия модел, а другата запазвате за оценка и тестване на вашия модел. Бях нарушил това правило, като направих моето увеличаване на данните, преди да разделя набора от данни. Ако не разбирате какво означава това, просто си помислете за това така: моят AI вече беше видял всички състезания и все пак само 50% от победителите бяха правилни. Това е лоша машина за залагане.
Бях разстроен. Не исках повече да имам нищо общо с този проект. Напуснах го - ядосан, разочарован и разочарован. Моята графика на ангажименти в GitHub е доказателство за това.

Всяко зелено квадратче в графиката за ангажиране на GitHub по-горе представлява ден, в който съм работил по този проект. Както можете да видите, има разлика между декември 2016 г. и февруари 2017 г. През тези седмици не се качвах в 5 сутринта и не мислех да надхвърля тези 37%.

Полето е отворено за открития

Защо разказвам тази история?
За мен областта на машинното обучение и ИИ е отворена за открития. Чувствам се така, както си представям естествените науки по време на Просвещението. За всеки камък, който Леонардо да Винчи и неговите съвременници обърнаха, те биха направили някакво ново откритие. Щяха да видят нещо невиждано досега и да направят едно голямо откритие след друго.
Днес най-съвременното машинно обучение е толкова вероятно да излезе от общежитието на някой ентусиазиран 18-годишен, колкото и от някоя от големите научни статии.

В Kaggle (не е свързано), платформа, където компании и организации могат да публикуват проблеми, свързани с данни, с прикачени към тях награди, конкуренцията е жестока. Хората се състезават, опитвайки се да решат тези проблеми с машинно обучение, AI и наука за данни.

След всяко състезание всички предложения са отворени за гледане от всички. Което означава, че ако се състезавате тук с някакъв изпитан подход, тогава ще се изправите срещу стотици други, които правят абсолютно същото. Вие няма да спечелите.
За да спечелите едно от тези състезания, почти винаги е необходимо да измислите нещо, което никой не е правил досега.
Машинното обучение напредва тук конкуренция след конкуренция.
Това прави изкуствения интелект и машинното обучение толкова вълнуващи за мен!

Тази идея беше потвърдена миналата година, когато ръководих двама студенти с магистърски работи. Двама млади момчета, директно завършили университета, с много стабилна основа по математика, но без опит в програмирането, машинното обучение или нещо, свързано с AI. Те разгледаха оценките на ковариационните матрици за управление на богатството.

Прекарвайки няколко седмици върху този проблем, работата им показа обещаващи резултати за побеждаване на съществуващите методи. Две малки деца от училище!

Ако имаха повече опит в това или повече време, тогава съм сигурен, че щяха да измислят нещо, което бие всички настоящи модели и методи.

AI Hype в своя пик

Gartner Hype Cycle описва различните фази, през които преминава ажиотажът около новите технологии.
AI и машинното обучение са в момента на самия връх. Така нареченият Пик на завишените очаквания. Всички говорят за това и всеки иска да се включи в това.
Рисковият капитал се излива. Колкото по-луда е идеята, толкова повече пари изглежда получават стартиращите AI компании. И има много луди идеи.
Но това, което се случва, е, че едно или две стартиращи компании се провалят. Неуспех. Разорявам. Шумът за AI ще започне да се спуска към Чрез разочарованието. Точно към това вървим. Знам. Немислимо е, че нещо подобно е възможно. Но шумът върху изкуствения интелект ще отшуми.
Не искаме шумът да бъде на дъното на дъното твърде дълго, защото когато шумът е там, е трудно да се привлекат най-добрите таланти и капитал. Вероятно също така ще видим спад на новите приложения и темповете на приемане ще се забавят.

Но добрата новина е, че е възможно да се прекъсне тази крива на рекламата. Писал съм за това тук: „Бърз път към другата страна на колапса на AI Hype“. За да накараме AI и машинното обучение да излязат по-бързо в другия край на цикъла на реклама на Gartner, трябва да скочим напред и да започнем да внедряваме полезни приложения точно сега.
Не трябва да се ограничаваме до най-великите идеи. Идеи, които ще раздвижат основата на обществото. Идеи като самоуправляващи се коли. Вместо това, нека намерим по-малки, по-достъпни и по-бързи печалби. Това може да означава, че се захващаме с по-обикновени и скучни проблеми, но много от тях могат да създадат стойност тук и сега.

Извеждане на автоматизацията на следващото ниво

Ежедневната ми работа е в ИТ на капиталовите пазари. Откакто се помня, говорим за Пряка обработка. По-красиво име за автоматизация. Създаваме сложни и сложни машини. Ние ги програмираме предварително с правила, за да се справят с всички проблеми и сценарии, които реалният свят може да им постави. Но много от проблемите, които възникват в реалния свят, нямат ясни решения. Някои имат много решения, някои решения са вероятностни по природа, а други имат решения, които се променят с времето. Сегашните ни машини са безполезни за този тип проблеми. И така, създаваме изключения или задачи, които след това трябва да бъдат обработени от хора.
Обработката на изключения, вземането на решения въз основа на вероятността и обучението с течение на времето е точно това, което AI и машинното обучение правят най-добре!

Защо ИТ техници, като мен, на скъпи договори на повикване, все още се викат посред нощ? Събуждане само за следване на предварително определена процедура за коригиране на някаква ИТ повреда. Често тези решения са тривиални.
Виждам подобна ситуация в бек-офис операциите в банките. Не искам да кажа, че работата на бек-офис операциите е тривиална или лесна. Точно обратното. Особено в наши дни. Но много по-малки ежедневни решения, които някой в бек-офиса взема, могат да бъдат взети от „интелигентна“ машина.
Два примера от ежедневната ми работа. Обзалагам се, че има много от тези видове възможни приложения навсякъде. Ситуации, при които изкуственият интелект и машинното обучение биха могли да ни отведат до следващото ниво на автоматизация и директна обработка.
Трябва да държим очите си нащрек за тях и когато ги забележим, трябва да имат смелостта да тръгнат след тях.

Какво се случи с изкуствения интелект за залагане?

И така, как се разви всичко с моя AI за залагане на състезания?
Купих нов компютър и го скрих в гардероб в коридора на нашия апартамент. Беше чудесно. Годеницата ми не споделяше това чувство, когато месечната ни сметка за електричество скочи през покрива и не беше много развеселена да открие, че коридорът ни мига като коледна елха заради всички светодиоди (какво става с всички мигащи светодиоди на компютрите? ).
Енергията и страстта ми се върнаха и отново ставах рано сутрин, за да работя по този проект.

Последните резултати, след ремоделиране на проблема, се изравниха със самите шансове. Около 37%. Този път моят AI беше толкова добър, колкото и консенсусът при залагане на състезания с впряг. След като постигнах целта си и „реших“ проблема си. Страстта ми към този проект намаля и оттогава се насочих към други проблеми.

Това, на което ме научи това пътуване и което се надявам да извадите от това дълго четиво, е, че въпреки че изкуственият интелект и машинното обучение изглеждат сложни с много математика и трудни акроними – това всъщност не е черна магия. Доста лесно е да започнете и да приложите тези технологии към проблеми точно тук и точно сега.
AI и машинното обучение са отворени за изследване и ви насърчавам да се потопите направо.
Нашият свят е пълен на възможности, големи и малки, където бихме могли да се възползваме от прилагането на машинно обучение и AI.