Что я узнал, прогнозируя футбольные матчи с помощью машинного обучения

Я всегда был очарован рынками. Возможно, это началось в подростковом возрасте, когда мой товарищ рассказал мне об этой стратегии ставок с «гарантированным выигрышем», которая включала в себя ставку на ничью и удвоение моей ставки до тех пор, пока я не выиграю - технически он не ошибался, но технически я тоже. у вас нет бесконечного банкролла, поэтому большое спасибо ZJ.

Когда я впервые услышал о машинном обучении, я подумал, что это намного лучше, чем моделирование футбола с использованием традиционной статистики, отчасти из-за ограничивающих предположений этих моделей, а отчасти потому, что в то время я был довольно ленив, чтобы изучать R.

Это было 1,5 года назад, и с тех пор я взял Python (намного проще, чем R!), Прочитал / применил все, что мог найти в машинном обучении, и, наконец, создал модель, которая немного лучше стратегии мартингейла. Еще многое предстоит сделать, но это эссе направлено на закрепление того, что я уже узнал, и на то, чтобы поделиться им со всеми, кто только начинает.

1. Букмекеры действительно хороши в своей работе, т.е. рынки достаточно эффективны.

«Я бы сравнил сборщиков акций с астрологами, но я не хочу ругать астрологов» - Юджин Фама

В статье Стивена Левитта о рынках ставок он утверждал, что маркет-мейкеры на рынках ставок работают совсем не так, как финансовые рынки, потому что они лучше предсказывают матчи, чем толпа. Следовательно, они могут устанавливать цены (коэффициенты), и им не нужно сопоставлять покупателей с продавцами.

Действительно, букмекеры очень точны в прогнозировании исходов футбольных матчей. Если мы построим график предполагаемой вероятности шансов против вероятности фактического исхода матча, мы получим довольно прямую линию, подразумевающую высокую положительную корреляцию.

Как ни странно, вы даже можете победить их, используя их собственные коэффициенты [2], но это работает только ограниченным образом (по сути, арбитраж среди разных букмекеров).

Итак, если рынок эффективен, зачем пытаться? Дело в том, что, как и гипотеза эффективного рынка в финансах, она не всегда верна. Непосредственно перед началом матча предполагаемая вероятность из шансов отражает вероятность исхода. Но за дни и часы до матча и после его начала эмоции проникают в толпу, и это может изменить шансы в нашу пользу, если мы сможем быстро их поймать и действовать исходя из истинной вероятности. Вот где использование машинного обучения может (надеюсь) дать нам преимущество перед некомпьютерными игроками.

2. Ансамбли - это действительно хорошие алгоритмы для начала и завершения.

Хотел бы я сказать, что я использовал сексуальные глубокие нейронные сети для прогнозирования футбольных матчей, но по правде говоря, наиболее эффективной моделью был тщательно настроенный классификатор случайного леса, с которым я впервые экспериментировал из-за его простоты. Я перепробовал почти все алгоритмы в sklearn, xgboost, а также в нейронных сетях, но случайный лес по-прежнему был самым стабильным из всех.

3. Удаление функций может улучшить предсказуемость.

«Чем больше вы знаете, тем меньше вам нужно». - Ивон Шуинар

Когда я только начинал проект, я просто бросал все на стену и смотрел, что прилипло, а затем продолжал придумывать новые функции, чтобы улучшить свои результаты. Но, пройдя курс машинного обучения fastai, я узнал, что удаление лишних функций на самом деле повысило мою точность, в основном потому, что они были шумом, который усложнял работу моей модели. И учитывая, что мы можем видеть, какие функции определяют наши прогнозы, машинное обучение на самом деле не является таинственным черным ящиком, которому нельзя доверять.

4. Проверьте все, особенно свои укоренившиеся предположения.

«Все, что можно проверить, должно быть проверено» - Виктор Нидерхоффер.

Существует так много вещей, которые можно настроить при проектировании и моделировании функций, и я стараюсь протестировать все, что можно проверить, чтобы лучше прогнозировать и обобщать. Учитывая набор функций / показателей на выбор, иногда может возникнуть соблазн попробовать другие функции, когда что-то работает достаточно хорошо.

Я помню, как в качестве показателя использовал средние голы в последних n играх и получил приличные результаты. Я был готов двигаться дальше, но потом увидел похожую метрику, экспоненциально взвешенное среднее. В своей голове я думал, что улучшение предсказуемости, если таковое будет, будет незначительным, поэтому я хотел попробовать что-то более захватывающее. Но, будучи параноиком, я решил быстро его проверить, и что вы знаете, на самом деле это был гораздо более сильный предсказатель, чем средний показатель. Никогда не знаешь, что сработает, пока не попробуешь.

5. Прогнозирование - это только часть уравнения.

После того, как вы спрогнозируете результат, работа не будет сделана. Дело в том, чтобы перехитрить букмекеров, а это значит, что мы действительно должны зарабатывать деньги в долгосрочной перспективе.

Поскольку цель состоит в том, чтобы заработать деньги, использование стандартных показателей оценки, таких как потеря точности / проверки, не является хорошим показателем того, достигнута ли наша цель. Поэтому я умножил букмекерские коэффициенты на прогнозируемую вероятность каждого правильного исхода, чтобы увидеть, насколько прибыльной была эта модель.

6. Ноутбуки Jupyter меняют правила игры.

После того, как я изучил Python / машинное обучение и начал применять то немногое, о котором я знал, я продолжил использовать рекомендуемый текстовый редактор для написания всего своего кода, а затем запускал код в терминале. Текстовые редакторы великолепны, и я до сих пор использую их в школе и для чтения загружаемых скриптов. Но Jupyter изменил мои эксперименты.

Вместо того, чтобы ждать запуска всего скрипта python, чтобы увидеть, что произвело мое редактирование, я мог запускать изменения в самой ячейке в интерактивном режиме. Потребовалось время, чтобы привыкнуть к рабочему процессу и сочетаниям клавиш, но как только я это сделал, мои циклы итераций сильно сократились, и я никогда не оглядывался назад.

7. Это никогда не заканчивается.

Это 10-летний путь, который я решил для себя в 2018 году и буду продолжать сокращать его в ближайшие годы и применять то, что я узнал, на других рынках. По мере появления новых показателей / исследований это постоянный путь к обучению и тестированию - хорошо, что мне нравится этот процесс.

использованная литература

[1] Как работают рынки? Эмпирический анализ азартных игр в национальной футбольной лиге, Стивен Д. Левитт

[2] Победа над букмекерами с их собственными числами - и то, как сфальсифицирован рынок онлайн-ставок на спорт, Лисандро Кауниц, Шенджун Чжун, Хавьер Крайнер