Прогнозирование победителя тура PGA (Часть 1 - Модели исследования и регрессии)

Когда я учился в университете в 2013 году, я сделал первую ставку. Это был год, когда Адам Скотт выиграл Masters. Раньше он не выигрывал крупных турниров, но я думал, что он был довольно привлекательным, и если я собирался проиграть деньги, делая ставку на кого-то, он был таким же верным предположением, как и все остальные.

Оглядываясь назад (и с тех пор прочитав «Блинк» Малкольма Гладуэлла), я думаю, что, когда я вырос в этом спорте, мой уровень интуиции, должно быть, повлиял на мой голос; Я выиграл 140 фунтов стерлингов, и это помогло мне провести несколько хороших ночей.

Мотивация

Я подошел к своему первому применению машинного обучения так же, как мне сказали подходить к любому завершенному мной проекту и к любой подготовленной мною презентации. Начните с того, что вы знаете.

Гольф - это то, что вам нужно.

Моя задача заключалась в том, чтобы выяснить, смогу ли я предсказать, какие игроки в гольф из PGA хорошо проведут сезон, и предсказывает ли это их будущую игру.

Источники данных

Моя вторая спецификация для этого проекта заключалась в том, чтобы потратить максимальное количество времени на методы машинного обучения, и, учитывая, что у меня был крайний срок, это означало, что мне нужно было потратить минимально возможное количество времени на очистку и подготовку данных.

К счастью, на Kaggle существует отличный набор данных с подробными сведениями о результатах PGA за 10 лет, еженедельно загружаемый с веб-сайта PGA Tour, а также подробная статистика по каждому игроку и каждой игре по сотням переменных. От среднего расстояния вождения до% патронов с отверстиями от 5 до 10 футов. В мире также есть несколько прекрасных людей, которые обсудили и поделились лучшими способами загрузки, импорта и преобразования этих данных в чистый набор данных, готовый к применению некоторых методов машинного обучения.

Вы можете найти минимальные методы импорта и очистки данных, которые я выбрал в моем репозитории GitHub здесь.

Исследовательский анализ

Это тот момент, когда я чуть не забыл, что я должен был применять методы машинного обучения. Я так интересуюсь гольфом и статистикой, что не знаю, как мне удалось добиться такого успеха в жизни, не тратя больше времени на изучение данных по гольфу!

Я использовал Plotly для большей части этого предварительного анализа, чтобы иметь возможность опросить определенные точки данных и получить все важные детали.

Некоторые из моих любимых тенденций - это отрицательная корреляция между средней дистанцией вождения и точностью вождения. Ниже вы можете увидеть, что самым длинным нападающим в туре в 2018 году был Рори Макилрой, однако это действительно сказалось на его точности вождения.

Ограничив эти данные 50% лучших по доходам, вы увидите, что большинство победителей тура попадают на фервей более 55% времени и в среднем проезжают более 280 ярдов. Кажется управляемым, не так ли? Но это еще не все!

Сильная корреляция между средним количеством паттов за раунд и процентом попаданий зеленых в норму (ниже) показывает, что вам нужен хотя бы один или другой, чтобы добиться успеха в туре… Желательно оба!
Хотя Джордан Спит примерно в 2015 году (среди других высокоэффективных красно-желтых игроков), кажется, показывает, что для успешного сезона немного важнее попадание в игру, чем попадание зеленых в соответствии с правилами.

Применение методов машинного обучения

После этого исследовательского анализа я использовал несколько методов машинного обучения для данных за 2010–2018 годы. Моя цель здесь заключалась в том, чтобы найти наиболее подходящие уравнения для прошлых данных и применить их к данным 2019 года, чтобы предсказать победителя.

Модель многомерной линейной регрессии

Моя первая попытка модели линейной регрессии дала оценку r² 0,50 по сравнению с данными обучения и 0,52 по сравнению с данными тестирования. Это показывает, что модель хорошо обобщалась и не была переоборудована, однако, с другой стороны, она не была особенно точной для данных и, следовательно, не была хорошей моделью для прогнозирования.

Модель многомерной полиномиальной регрессии

Затем я попробовал модель полиномиальной регрессии, которая оказалась более успешной. Показатель r² обучающих данных был намного выше - 0,71, и, несмотря на то, что он хуже соответствовал данным тестирования, чем обучающим данным (что, в конце концов, и следовало ожидать), показатель r² данных тестирования по-прежнему составил 0,61, что выше, чем при линейной регрессии. Модель.

По пути я почерпнул еще несколько интересных идей ...

Становятся ли со временем более важными определенные характеристики игроков?

Расчет моделей линейной регрессии из года в год и построение графиков по непокрытым переменным, тенденции которых стали более влиять на прибыль с течением времени. На диаграммах ниже показаны зависимости конверсии птички от сезонных доходов, постепенное увеличение градиента показывает, как важность этой переменной увеличивалась с течением времени.

То же самое и с% зеленых в процессе регулирования, значение которого со временем становится все более важным.

Однако важность среднего количества паттов за раунд не слишком изменилась с течением времени.

По всем этим переменным данные, похоже, со временем еще больше перекосились, и каждый сезон появляется несколько действительно положительных выбросов. Подразумевается, что быть разносторонним игроком больше не значит быть победителем PGA Tour в 2019 году - нужно быть исключительным.

Мини-вывод

На этом заканчивается Часть 1 - Модели исследования и регрессии. Мне очень понравился этот проект, не в последнюю очередь потому, что я многому научился. Чтобы избежать усталости от данных, вы можете найти вторую часть моего проекта в другой статье, посвященной Кластеризация K-средних, Деревья решений и еще одному заключительному захватывающему прогнозу. Здесь.

Спойлер: Я заработал немного денег. Излишне говорить, что это стоит прочитать!