Когато бях в университета през 2013 г., направих първия си залог. Това беше годината, в която Адам Скот спечели Мастърса. Той не беше печелил голям турнир преди, но мислех, че е доста привлекателен и ако щях да губя пари, залагайки на някого, той беше толкова добър предположение, колкото и всеки друг.

Поглеждайки назад (и след като прочетох „Blink“ на Малкълм Гладуел), мисля, че след като съм израснал със спорта, има ниво на интуиция, което трябва да е променило гласа ми; Спечелих £140 и това финансира няколко добри вечери.

Мотивация

Подходих към първото си прилагане на машинно обучение по същия начин, по който ми беше казано да подхождам към всеки проект, който съм завършил, и всяка презентация, която съм подготвил. Започнете с нещо, което знаете.

Голфът е това нещо - така че ето го.

Задачата ми беше да разбера дали мога да бъда успешен в прогнозирането кои голфъри на PGA имат добър сезон и дали това предсказва бъдещото им представяне.

Източници на данни

Втората ми спецификация за този проект беше да отделя максимално време, концентрирайки се върху техниките за машинно обучение, и като се има предвид, че имах краен срок — това означаваше, че трябва да отделя възможно най-малко време, концентрирайки се върху почистването и подготовката на данни.

За щастие, съществува страхотен набор от данни на Kaggle, описващ около 10 години PGA резултати, изтеглени всяка седмица от уебсайта на PGA Tour, и подробна статистика за всеки играч и всяка игра в стотици променливи. От средно разстояние на шофиране до % удари между 5–10 фута. Има и някои прекрасни хора по света, които са обсъждали и споделяли най-добрите начини за изтегляне, импортиране и превод на тези данни в чист набор от данни, готов за прилагане на някои техники за машинно обучение.

Можете да намерите минималните методи за импортиране и почистване на данни, които избрах в моето репо в GitHub тук.

Проучвателен анализ

Това е моментът, че почти забравих, че трябваше да прилагам техники за машинно обучение. Толкова се интересувам както от голфа, така и от статистиката, че не съм сигурен как съм стигнал толкова далеч в живота, без да прекарвам повече време в разглеждане на голф данни!

Използвах Plotly за по-голямата част от този предварителен анализ, за ​​да мога да разпитам конкретни точки от данни и да получа всички пикантни подробности.

Някои от любимите ми тенденции бяха отрицателната корелация между средното разстояние на шофиране и точността на шофиране. Можете да видите по-долу, че най-дълго убиващият в турнето през 2018 г. беше Рори Макилрой, но това наистина удари точността му при шофиране.

Ограничавайки тези данни до най-добрите 50% по печалби, можете да видите, че по-голямата част от победителите в обиколките са удряли фарватера повече от 55% от времето и средно над 280 ярда. Изглежда управляемо, нали? Но има още нещо!

Силната корелация между средните удари на рунд спрямо % удари в грийнове в регламента (по-долу) показва, че имате нужда от поне едното или другото, за да успеете в турнето... За предпочитане и двете!
Въпреки че Джордан Спийт около 2015 г. (сред другите добре представящи се в червено и жълто) изглежда показва, че поставянето е малко по-важно за успешния сезон от удрянето на Зелените в регламента.

Прилагане на техники за машинно обучение

След този проучвателен анализ използвах няколко техники за машинно обучение върху данните от 2010–2018 г. Моята цел тук беше да намеря най-подходящите уравнения за минали данни и да ги приложа към данните от 2019 г., за да предвидя победител.

Многовариантен линеен регресионен модел

Първият ми опит за линеен регресионен модел имаше r² резултат от 0,50 спрямо данните от обучението и 0,52 спрямо данните от тестването. Това показва, че моделът е генерализиран добре и не е бил пренастроен, но от друга страна, той не е бил особено плътен до данните и следователно не е бил страхотен модел за прогнозиране.

Многовариантен полиномиален регресионен модел

След това опитах модел на полиномиална регресия, който беше по-успешен. Резултатът от r² на данните за обучението беше много по-висок от 0,71 и въпреки че беше по-малко подходящ за данните от тестването, отколкото с данните от обучението (което в края на краищата се очаква), резултатът от r² от данните от тестването все пак излезе на 0,61, по-висок от линейната регресия Модел.

Избрах още няколко интересни прозрения по пътя...

Станали ли са по-важни определени характеристики на играча с времето?

Изчисляването на линейни регресионни модели година за година и графиката по променлива разкрива кои тенденции са станали по-влиятелни върху печалбите с течение на времето. Графиките по-долу показват Birdie Conversion, начертано спрямо сезонните печалби, постепенното увеличаване на градиента показва как важността на тази променлива се е увеличила с течение на времето.

Подобна е историята и с % зелени в регламента, който става все по-важен с времето.

Въпреки това значението на средните удари на рунд не се е променило твърде много с времето.

Във всички тези променливи данните изглежда са се изкривили повече с времето, с още няколко наистина положителни отклонения всеки сезон. Изводът е, че да бъдеш универсален играч изглежда вече не помага, за да бъдеш победител в PGA Tour през 2019 г. - трябва да си изключителен.

Мини заключение

Тук завършва Част 1 — Модели за проучване и регресия. Наистина ми хареса този проект, не на последно място защото научих толкова много по пътя. За да избегнете умората от данни, можете да намерите втората част на моя проект в друга статия, фокусирана върху K-средно групиране, Дървета на решения и едно последно вълнуващо предсказание тук.

Сигнал за спойлер: Направих малко пари. Излишно е да казвам, че си струва да се прочете!