Какво научих, прогнозирайки футболни мачове с машинно обучение

Винаги съм бил очарован от пазарите. Може би започна в тийнейджърските ми години, когато моят приятел ми каза тази стратегия за залагане със „сигурна печалба“, която включваше залагания за равенство на футболните мачове и удвояване на залога ми, докато спечеля – технически той не сгреши, но технически аз също го направих нямате безкрайна банка, така че благодаря много ZJ.

Когато за първи път чух за машинно обучение, си помислих, че е много по-добро от моделирането на футбол с помощта на традиционни статистики, отчасти поради ограничаващите допускания на тези модели и отчасти защото бях доста мързелив да науча R по това време.

Това беше преди 1,5 години и оттогава взех Python (толкова по-лесно от R!) и прочетох/приложих всичко за машинното обучение, което можах да намеря, и накрая създадох модел, който е малко по-добър от мартингейл стратегия. Има още много неща за вършене, но това есе има за цел да консолидира това, което научих досега, и да го споделя с всеки, който започва.

1. Букмейкърите са наистина добри в работата си, т.е. пазарите са доста ефективни

„Бих сравнил берачите на акции с астролозите, но не искам да говоря с астролози зле“ – Юджийн Фама

В „документа“ на Стивън Левит за пазарите на залагания той твърди, че маркет мейкърите на пазарите за залагания работят много по-различно от финансовите пазари, защото са по-добри в прогнозирането на мачове от тълпата. Следователно те могат да определят цените (коефициентите) и не е необходимо да свързват купувачи с продавачи.

Наистина, букмейкърите са „много точни“ в прогнозирането на футболните резултати. Ако начертаем подразбиращите се вероятности за коефициенти спрямо вероятността за действителни резултати от мача, получаваме доста права линия, предполагаща висока положителна корелация.

Забавно, можете дори да ги „победите, като използвате собствените им шансове“[2], но това работи само по ограничен начин (по същество арбитраж между различни букмейкъри).

Така че, ако пазарът е ефективен, защо си правите труда да опитвате? Е, защото подобно на хипотезата за ефективния пазар във финансите, това не е винаги вярно. Точно преди началото на мача, подразбиращата се вероятност от коефициентите отразява вероятността за резултата. Но дни и часове преди мача и след началото му, емоциите си проправят път към публиката и това може да промени шансовете в наша полза, ако успеем да го уловим бързо и действаме според истинската вероятност. Това е мястото, където използването на машинно обучение може (да се надяваме) да ни даде предимство пред некомпютърните залагащи.

2. Ансамблите са наистина добри алгоритми за започване и завършване

Иска ми се да мога да кажа, че използвах секси дълбоки невронни мрежи, за да прогнозирам футболни мачове, но истината е, че най-ефективният модел беше внимателно настроен произволен горски класификатор, с който първо експериментирах заради неговата простота. Опитах почти всеки алгоритъм в sklearn, xgboost и също невронни мрежи, но случайната гора все още беше най-стабилната от всички тях.

3. Премахването на функции може да помогне за подобряване на предвидимостта

"Колкото повече знаете, толкова по-малко имате нужда." – Ивон Шуинар

Когато за първи път започнах проекта, просто хвърлих всичко на стената и видях какво е останало, а след това продължих да мечтая за повече функции, за да подобря резултатите си. Но докато преминавах през „курса по машинно обучение на Fastai“, научих, че премахването на излишни функции всъщност подобри моята точност, най-вече защото те бяха шум, който затрудни работата на моя модел. И като се има предвид, че сме в състояние да видим какви характеристики управляват нашите прогнози, машинното обучение наистина не е мистериозна черна кутия, на която не може да се вярва.

4. Тествайте всичко, особено предположенията си

„Всичко, което може да бъде тествано, трябва да бъде тествано“ – Виктор Нидерхофер

Има толкова много неща, които могат да бъдат променени в инженеринга и моделирането на функции и аз се опитвам да тествам всичко, което може да бъде тествано, за да прогнозирам и обобщавам по-добре. Имайки набор от функции/метрики, от които да избирате, понякога може да е изкушаващо да опитате други функции, когато нещо работи достатъчно добре.

Спомням си, че изпробвах средните голове в минали n игри като показател и получих прилични резултати. Бях готов да продължа напред, но тогава видях подобен показател, експоненциално претеглена средна стойност. В главата си мислех, че подобрението в предвидимостта, ако има такова, ще бъде незначително, така че исках да опитам нещо по-вълнуващо. Но тъй като съм параноичен, реших да го тествам бързо и каквото знаете, всъщност беше много по-силен предиктор от средния индикатор. Никога не знаеш какво ще работи, докато не го опиташ.

5. Прогнозата е само част от уравнението

След като предвидите резултата, работата не е свършена. Въпросът е да надхитрим букмейкърите, което означава, че всъщност трябва да правим пари в дългосрочен план.

Тъй като целта е да печелите пари, използването на стандартни показатели за оценка като точност/загуба при валидиране не е добра мярка за това дали нашата цел е постигната. Следователно, умножих коефициентите на букмейкъра по прогнозираната вероятност за всеки правилен резултат, за да видя колко печеливш е моделът.

6. Преносимите компютри Jupyter променят играта

След като научих Python/Machine Learning и започнах да прилагам малкото, за което знаех, продължих да използвам препоръчан текстов редактор, за да напиша целия си код и след това да стартирам кода в терминала. Текстовите редактори са страхотни и все още ги използвам за училище и за четене на скриптове, които изтеглям. Но Юпитер промени начина, по който експериментирах.

Вместо да чакам да стартирам целия скрипт на Python, за да видя какво е произвела моята редакция, мога да стартирам промени в самата клетка интерактивно. Отне известно време, за да свикна с работния процес и клавишните комбинации, но след като го направих, моите итерационни цикли се съкратиха изключително много и никога не съм поглеждал назад.

7. Никога не свършва.

Това е 10-годишно пътуване, което реших за себе си през 2018 г. и ще продължа да го отделям през следващите години и ще прилагам наученото на други пазари. Тъй като се появяват нови показатели/изследвания, това е непрекъснато пътуване за продължаване на ученето и тестването – добре, че обичам процеса.

Препратки

[1] Как функционират пазарите? Емпиричен анализ на хазарта в националната футболна лига, Стивън Д. Левит

[2] Побеждаване на букмейкърите със собствените им числа — и как е манипулиран пазарът на онлайн спортни залагания, Лисандро Кауниц, Шенджун Жонг, Хавиер Крейнер