UCLA CS Undergrad споделя преглед на прост ML модел за прогнози в скоби

Ние сме в Ден 2 (игнорирайте игрите) на March Madness и моята група за момент е обещаваща. Преди турнира се чудех колко скоби са изградени с помощта на ML модели, като се има предвид всичко, което съм чел през последните няколко месеца.

Запознат съм с „групата от кръгови вероятности на FiveThirtyEight“ и съм го използвал преди, за да завърша (прочетете: напълно информирам) моето виждане за множество средно големи отбори. Няма нищо лошо в моделите на 538 — „всъщност е много задълбочено“ — но примерът, който споделям тук, ви дава по-добър поглед върху логиката зад изграждането на ML модел.



Публикацията на Adit оформя проблема по следния начин:

  • Каква е целта на модела?
  • Какви са възможните входове на данни и полезни изходи?
  • Как да представя необработените данни от набора за обучение в използваем формат (вектор)?
  • Кои алгоритми трябва да избера, за да обуча модела и да задам подходящите тегла на характеристиките?
  • Какви са резултатите от точността и как мога да коригирам, за да подобря (напр. да преформатирам данни за обучение, да включа нови входове, да изследвам нови структури на модела и т.н.)

Особено ми хареса как той показа относителния принос на всяка функция след обучение, използвайки алгоритъм „Регресионно дърво с градиентно усилване“.

Можете да видите как определени тегла на характеристиките са много важни, особено комбинираните характеристики на резултата като SOS и SRS, които вземат предвид нивото на конкуренция и представяне по време на редовния сезон. Можете да видите как тези комбинирани резултати показват незначителни основни игрови статистики като борби, тройки и точки, заедно с функции като „PowerConf“, което е двоично за това дали отборът е участвал в конференция със силни конкуренти.

Ако харесвате напреднали баскетболни статистики — както FiveThirtyEight е — вероятно бихте избрали различни входни данни, които да включите във вашия тренировъчен набор (ако данните са налични), като статистики за 100 притежания на игра или признати съставни резултати като KENPOM или ESPN's BPI.

В крайна сметка наистина ми хареса да прочета това. Аз съм баскетболен наркоман и това ми позволи да изградя ML модел по тема, с която се чувствам много удобно. Ако и вие харесвате баскетбол, силно препоръчвам да прочетете това.

Ако сте любопитни, ето получената скоба от неговия бърз модел:

Специално поздравление към Адит, че по някакъв начин не е подправил данните в полза на Бруинс. Загуба от Sweet 16 от Кентъки ще боли. Насладете се на лудостта!