Прогнозирането на победители и губещи в Националната баскетболна асоциация е наистина, наистина трудно. Като фен имам своите мнения, но те обикновено не са подкрепени от никакви данни или математика. Обикновено разглеждам неща като талант, предимство на домашния корт, организационни баскетболни операции и треньорство, за да правя прогнози за плейофните серии, но когато става въпрос за отделни игри, не съм толкова уверен в избора си. Отчасти това прави спорта толкова забавен. Резултатите са неизвестни. Една игра трябва да се играе и ние ги обичаме за това. Но специалистът по данни в мен не можеше да остави нещата така. Току-що трябваше да прочета документ за много точен модел за прогнозиране на играта на NBA.

Откъде са взели данните?
14 характеристики на двата отбора и победата или загубата на домакинския отбор бяха извлечени от http://www.stat-nba.com/, 10 271 записа бяха събрани за всички игри за сезони от 2007–08 до 2014 г. –15 и тези данни се съхраняват в база данни MySQL. Брилянтният екип зад това изследване използва принципа на максималната ентропия, за да изгради свой собствен модел на максимална ентропия на NBA (NBAME), който се вписва в дискретни статистики за игрите на NBA и след това прогнозира резултатите от плейофните игри. NBAME прогнозира отбора победител със 74,4% точност! Това надмина традиционните алгоритми за машинно обучение, които достигнаха максимална точност от 70,6%.

Максималната ентропия, известна също като логаритмично линеен модел, подчертава оптималното приближение до неизвестно разпределение на вероятностите, което отговаря на всички ограничения на неизвестното разпределение и не прави предположения за неизвестни условия. За този проблем разпределението на вероятностите е силно униформено и рискът от избор на грешна прогноза е нисък.

За разлика от класификатора на Naive Bayes, максималната ентропия не предполага, че характеристиките са условно независими една от друга. За резултати от баскетболни игри максималната ентропия превъзхожда другите подходи, особено когато броят на пробите е малък. Това е така, защото това е регресия, която също използва процес на оптимизация, който гарантирано ще се сближи с решението за максимална ентропия.

За да обучат своя модел на максимална ентропия с ограничени данни за обучение, изследователите преобразуваха непрекъснатите числови атрибути в дискретни. Те също формализираха проблема за „предсказване на резултата“ като проблем за класификация от 2 класа. Всяка игра беше описана от вектор, състоящ се от 29 характеристики на отбори и резултатите от играта (етикета). Резултатът за точност беше тяхната мярка за оценка на ефективността.

Как работи моделът NBAME?
Моделът на NBAME връща вероятността за победа на отбора домакин предвид характеристиките на предстоящата игра. Отборът домакин ще бъде по-вероятно да спечели, ако моделът върне вероятност, по-голяма от праговата стойност от 0,5. Когато повишите прага, броят на игрите, които могат да бъдат предвидени, намалява. Например, броят на прогнозите за играта падна от 86 на 48 след увеличаване на прага до 0,6. Но точността се покачи от 74,4% на 77,1%. Задаването на праг от 0,7 намали прогнозите за играта от 48 на 6. Но точността на прогнозите скочи с 22%! Това демонстрира компромис. Колкото по-висок е прагът, толкова по-малко са прогнозите, но толкова по-висока е точността.

Залагайте!
NBA има глобална публика. Феновете искат да знаят резултатите. Те искат да се чувстват така, сякаш имат предимство в знанието кой печели. Сега добавете компании за спортни залагания към микса. Милиарди, направени от хазартните шансове на един отбор да победи друг. Феновете правят своите залози, заслепени от вярност към отбора и без никаква научна основа, и обикновено губят при неточни прогнози. С бързото развитие на науката и технологиите, науката за данните и машинното обучение, прогнозирането на резултатите от играта с висока точност е осъществимо и обещава неописуемо икономическо значение за индустрията на спортните залагания. Калифорния е най-населеният и проспериращ щат и все още не е легализирал спортните залагания. Най-големите франчайзи в НБА са Лос Анджелис Лейкърс и Голдън Стейт Уориърс. Не мислите ли, че феновете са нетърпеливи да знаят кой може да спечели играта? Бихте ли били по-склонни да направите залог, ако шансовете някога бяха във ваша полза? Аз съм. Моделът на NBAME дава възможност на всички ни. Уверете се, че сте поставили 24K или 42K, което от двете.

Между другото, ето отново статията.
Cheng, Ge, Zhenyu Zhang, Moses Ntanda Kyebambe и Nasser Kimbugwe. 2016. „Прогнозиране на резултата от плейофите на НБА въз основа на принципа на максималната ентропия“ Ентропия 18, бр. 12: 450. https://doi.org/10.3390/e18120450