Футболен анализ: Опитайте се да подобрите текущия показател за очаквани голове с помощта на вероятностни...

Резюме

Този проект се основава на концепцията за метриката xG във футбола, която измерва качеството на удара или вероятността един среден удар да отбележи гол. Целта е да се изчисли метриката xG с помощта на Bayesian Networks и да се сравнят резултатите с базов модел с помощта на логистична регресия.

Въведение

Показател за очаквани цели (xG).

Балотели,….. Агуероооооооо. Кълна се, че никога повече няма да видите нещо подобно. Така че гледайте го, изпийте го.

— Мартин Тайлър, Манчестър Сити срещу КПР Мач за спечелване на титлата във Висшата лига от 2012 г.

Футболът, в сравнение с други спортове, е спорт с относително нисък резултат и следователно непредвидим на ниво мач. Средният брой отбелязани голове на мач е 2,66 в най-добрите полети на Англия, Германия, Испания, Италия и Франция между 1993 и 2011 г., докато в Националната баскетболна асоциация има над 160 отбелязани точки на мач.

Във футбола мачовете и често турнирите се решават от отделни моменти на блясък. Това е, което прави спорта специален, неговите фенове толкова страстни - но кошмар за анализаторите. В края на краищата, решенията, взети от клуб, потенциално струващ милиони долари, не могат да бъдат взети само въз основа на текущата форма.

За да се въведе известен ред в този хаос и да се премахне несигурността при отбелязването на голове, показателят за очаквани голове (xG) беше въведен през 2012 г. от Сам Грийн. Той измерва качеството на удара или вероятността средно един удар да отбележи гол (Фигура 1). Това означава, че можем да отидем отвъд реално отбелязаните голове, които по своята същност са случайни, за да проучим средно какво е трябвало да се случи.

Това е полезно, тъй като футболните клубове вече могат да вземат по-интелигентни решения относно набирането на персонал или тактиката. Например, клубовете могат да надхвърлят броя на головете или асистенциите, поставени от играч, и да идентифицират играчи, които може да са имали късмет при завършването, но създават висококачествени положения. По същия начин те също така намаляват рисковете си от набиране на персонал, като гарантират, че не плащат надплащане за играч въз основа на щастлива гореща серия от голове.

Въз основа на тази теория анализаторите от ФК Ливърпул заключиха, че Юрген Клоп, треньорът на Борусия Дортмунд, не е имал късмет през предишния си сезон и че Борусия Дортмунд всъщност заслужава да бъде 5 места по-нагоре в крайната таблица на Бундеслигата (Фигура 2). По този начин Юрген Клоп беше нает във ФК Ливърпул, въпреки неуспехите през последната си година в Борусия Дортмунд.

Очакваните голове са класически проблем за контролирано обучение, при който класификационният модел има за задача да идентифицира дали ударът е гол или не, като се има предвид контекстуалната информация към момента, в който ударът е направен.

Така че, ако разгледаме произволна променлива на Бернули, да кажем is_goal, което е 1, когато ударът води до гол, 0 в противен случай. Тогава xG метриката на изстрела се определя като условното очакване на is_goal,защото

E(is_goal|местоположение,част от тялото,...) = P(is_goal=1|местоположение,част от тялото,...)

xG от изстрел обикновено се изчислява с помощта на методология на логистична регресия, но могат да се използват и други алгоритми за класификация като дървета на решенията и случайни гори. В този проект ще бъде използван вероятностен графичен модел, по-специално Bayesian Net, за изчисляване на метриката xG.

Както при всички други проблеми с контролираното обучение, характеристиките, които са избрани да бъдат научени, оказват голямо влияние върху полученото xG. Данните, използвани от Сам Грийн в неговия оригинален модел, са показани в таблица 1 и много други характеристики са добавени по-късно от други анализатори. Въпреки това, поради ограниченията на наличните данни, както и времето, анализът в този проект се основава на ограничен брой функции, които ще бъдат обсъдени в следващите раздели.

Вероятностни графични модели

Графиката включва възли, които са свързани с връзки. В вероятностен графичен модел възлите представляват случайна променлива, а връзките изразяват вероятностните връзки между променливите. След това графиката улавя начина, по който съвместното разпределение върху всички случайни променливи може да бъде разложено, така че да се видят условните връзки между възлите. Този проект ще се фокусира главно върху насочени ациклични графики или Bayesian Nets.

Bayesian Networks имат връзки, които имат насоченост, свързана с тях. Те са полезни за изразяване на причинно-следствената връзка между случайни променливи. Например, нека разгледаме проста байесова мрежа от 4 променливи: WetGrass(WG), Rainy(R), Cloudy(C) и Sprinkler(S). При липса на допълнителна информация съвместното разпределение на вероятностите може да бъде записано като -

P (WG, C, S, R) = P(WG|C,S,R) P(S|C,R) P(R|C) P(C)

Сега да предположим, че сме в състояние да научим причинно-следствените връзки между променливите, които са представени във формата на Фигура 3.

Тогава съвместната вероятност може да бъде разложена на фактори, както следва,

P (WG, C, S, R) = P(W|S,R) P(S|C) P(R|C) P(C)

Едно от основните предимства на използването на PGM пред логистичната регресия или други проблеми с класификацията е, че ни позволява да изчисляваме пределните условни разпределения, които са полезни за футболни анализи, където всички променливи може да не са винаги известни. PGM също предоставя информация за независимостта на различни променливи.

Методика

Данни

Данните, използвани в този модел, са достъпни на: https://www.kaggle.com/secareanualin/football-events.

Характеристиките, които се вземат предвид в този модел са -

Местоположение — Вместо да се вземат разстоянието и ъгълът на изстрела, теренът е разделен на 11 зони, обозначени с {'Centre of the Box', 'Difficult Angle and Long Range', 'Difficult Angle отляво“, „Труден ъгъл отдясно“, „Лява страна на кутия“, „Лява страна на кутия от 6 yd“, „Дясната страна на кутия“, „Дясната страна на кутия от 6 yd“, „Много близък обхват“ , 'Outside Box', 'Long Range'}.

Част на тялото — Тази характеристика се отнася до това дали кадърът е направен с десен крак, ляв крак или глава.

Метод на подпомагане — Тази характеристика се отнася до типа пас, който е довел до изстрела. Всички асистенции са поставени в тези 5 категории, {Няма, Пас, Насочване, Пас с глава, Топка}

Местоположение на удара и Бърза почивка* —Местоположението на удара се отнася до разположението на удара, напр. Горен ляв ъгъл и бърз пробив е променлива на Бернули, която показва контраатака.

*Тези функции не са използвани за логистична регресия

Също така, за по-нататъшен анализ, взех предвид само открити удари и всички дузпи, свободни удари и корнери бяха премахнати.

Общо 229135 изстрела присъстваха в данните, от които бяха взети под внимание 192431 открити изстрела.

Логистична регресия

За да се валидира изградената байесова мрежа, е необходима базова линия. В този проект логистичната регресия се прилага върху същите характеристики като Bayesian Network и xG, предсказан от двете, се сравнява.

Преди прилагането на логистична регресия, наличните данни бяха векторизирани, т.е. всички характеристики бяха преобразувани в k-hot вектор.

напр. Част от тялото = 3 беше преобразувана в Част от тялото = [0, 0, 1]

Размерността на данните е намалена с помощта на PCA и е представена на Фигура 5.

Наличните данни обаче бяха силно изкривени към мис.

Така че, за да се коригира класовият дисбаланс, беше използвана претеглена логистична регресия. Теглата бяха изчислени като,

Тегло = 0,5* (Брой примери/Брой мис)

Резултатите от непретегления, както и от претегления модел, са обобщени на фигура 7.

Въпреки че непретеглената логистична регресия дава по-добра точност, претеглената логистична регресия се счита за базов модел, тъй като обобщава по-добре нови данни.

Байесова мрежа

Възлите на Bayesian Network са дадени от {Location, Is_Goal, Shot_Place, Assist_Method, Bodypart, Fast_Break}.

За да се научи структурата на мрежите, беше използвано обучение на структура, базирано на ограничения, където програмата първоначално приема възлите за независими и след това валидира хипотезата. Получената структура е дадена на фигура 8.

След като структурата е решена, условното разпределение на вероятността на всеки възел се изчислява с помощта на Bayesian Estimator.

След като структурата и параметрите на байесовската мрежа бъдат научени, маргинализираната вероятност, зависима от други възли, може да бъде изчислена чрез генериране на заявки към мрежата.

За повече информация относно обучението на структура и параметри в байесова мрежа, моля, проверете приложението в края на блога.

РЕЗУЛТАТИ

Сега, след като Бейсовата мрежа е научена, тя може да се използва за намиране на отговорите на много неща, за които не бяхме сигурни по отношение на играта футбол.

1. Оценяване на представянето на играчите

От времето, когато Лионел Меси и Кристиано Роналдо дебютираха в света на футбола, те напълно монополизираха светлината на прожекторите върху световния футбол. През последното десетилетие или повече те продължават да представят изпълнения с такова умение и последователност, че мнозина биха помислили за невъзможно. През този период, дори повече от невероятните голове на двамата, имаше спорове относно това кой е по-добър. Често може да искаме да сравним двама страхотни играчи и въпреки че този модел е отворен за тълкуване, се надяваме, че ще предостави по-ясна картина за въпросните играчи.

Фигура 10 показва условния xG дадена част от тялото или местоположение за среден играч. Както се очакваше, xG е най-висок за изстрел от много близко разстояние и като цяло изстрелите близо до бокса имат по-висок xG от изстрелите от далечно разстояние.

По същия начин xG е най-висок за удар с глава. Това може да се отдаде на факта, че заглавките обикновено се опитват от области, които могат да бъдат отбелязани. Малко по-високият xG за десния крак може да е предубеден поради по-големия брой играчи с десен крак.

Подобен анализ беше направен с помощта на наличните данни за Лионел Меси и Кристиано Роналдо и е представен на фигура 11.

От графиките ясно се вижда, че и двамата играчи са на много по-високо ниво в сравнение със средното. Сред тях двамата обаче Меси изглежда се представя най-добре на почти всяко място. Всъщност единственият показател, в който Роналдо е по-добър, е при труден ъгъл отдясно, което може да бъде извинено, тъй като Меси е играч с левия крак, докато Роналдо е с десния крак.

Един изненадващ резултат от графиката е, че Меси се представя по-добре с десния си крак. Това обаче може да се дължи на факта, че Меси обикновено не стреля с десния си крак, но когато го направи, това е смъртоносно (Идва на ум The Neuer Chip срещу Байерн, полуфинал на UCL, 2015 г.). Освен това графиката допълнително затвърждава статуса на Роналдо като един от най-добрите удари с глава на топката.

2. Анализ на реалния мач

Досега моделът е оценен в контролирана симулирана среда и за да се оцени по-добре производителността, xG трябва да се изчисли за реално съвпадение.

EL CLASSICO, 2015 — Светкавици на Бернабеу

На 21 ноември 2015 г. гигантите на испанския футбол, Барселона и Реал Мадрид, се срещнаха за първото Класико за сезона на Сантяго Бернабеу. Каталунците бяха водени от Луис Енрике и предстояха требъл сезон. Междувременно Реал Мадрид беше воден от нов треньор Рафа Бенитес, който беше назначен предишното лято. Въпреки че Барселона започна без Лионел Меси, други играчи като Луис Суарес, Неймар и Андрес Иниеста напълно доминираха в играта и изведоха Барселона до огромна победа с 4:0, проправяйки пътя към това да стане шампион на Ла Лига два пъти поред.

Опитаните удари в мача са обобщени в таблица 2.

След това xG на всеки изстрел се изчислява, като се използват както логистичната регресия, така и моделът на Bayesian Net.

където общият xG, предвиден от двата модела, е —

Както може да се види в таблица 4, моделът на Bayesian Network работи много по-добре от дадените данни и класификаторът на логистичната регресия силно надценява xG. Всъщност, предвид ограниченията на данните и факта, че сме пренебрегнали ъглови удари, свободни удари и т.н., Bayesian Network се представя изключително добре.

Изводи

В този проект беше внедрена байесова мрежа за изчисляване на вероятността даден изстрел да бъде гол, като се има предвид контекстуалната информация зад изстрела. Логистичната регресия също беше приложена с помощта на същите функции, които служат като базова линия за горния модел.

Моделът беше използван за сравняване на представянето на играчите и беше използван в сценарий от реалния свят, където беше установено, че се представя много по-добре от модела на логистичната регресия. Стойността също беше близка до литературната стойност, предвидена от футболните анализатори, въпреки използването на много по-малко данни, което повдига интересни въпроси относно прилагането на Bayesian Nets върху много по-голям набор от данни.

Бъдещи работи

Същият модел може да се приложи към разширен набор от данни, което може да доведе до нов стандарт за метриката xG.
Класовият дисбаланс може да се отчете с помощта на xG алгоритми за повишаване.
Стат фигурите могат да бъдат взети под внимание независимо или заедно с открити голове.
Освен теоретична работа, съществуващият модел може да се използва за отговор на много практически въпроси, ограничени само от вашето въображение.

Като бележка под линия, кодът, използван в този проект, е качен в Github. Той е публично достъпен за всеки заинтересован.

Github връзка: https://github.com/Aranya3003/FootballXg

Приложение

Обучение на структура, базирана на ограничения

Структурното обучение в Bayesian Network се отнася до изучаването на скритите условни зависимости в данните. Неговата изчислителна сложност е суперекспоненциална по отношение на броя на възлите в най-лошия случай и полиномна в повечето сценарии от реалния свят. Съществуват общо три подхода, които се използват за изучаване на структурата на байесова мрежа, базирани на ограничения, базирани на резултатии хибридниалгоритми. В този проект се използва обучение на структура, базирано на ограничения.

Всички алгоритми за обучение на структури, базирани на ограничения, споделят общата трифазна структура, дадена по-долу —

Фаза 1: Научаване на Marknovian Blanket

За всяка променлива X, изучавайки това е Markov Blanket B(X). Марков бланкет на възел се отнася до подмножество от всички налични възли, което съдържа цялата полезна информация относно този възел.
Проверка на симетрията на Markov Blankets. Ако X принадлежи на B(Y), тогава Y трябва да принадлежи на B(X). Всички несиметрични възли се отстраняват от съответните Markov Blankets.

Фаза 2: Обучаващи се съседи

За всяка променлива X научете набора N (X) от нейните съседи (т.е. родителите и децата на X). Еквивалентно, за всяка двойка X, Y, потърсете подмножество от всички възли, като X и Y са независими, като се има предвид всеки възел в това подмножество. Ако не съществува такова подмножество, тогава X и Y са свързани с дъга.
Проверка на симетрията на мрежите, подобно на стъпка 2.

Фаза 3: Научаване на посоките на дъгата

За всяка двойка несъседни променливи X и Y с общ съсед Z, проверете дали X и Y са независими, дадени Z. Ако не, задайте посоката на дъгите X − Z и Z− Y, за да получите v-структура V = {X → Z← Y}.
Ако X е съседен на Y и има строго насочен път от X към Y (път, водещ от X към Y, който не съдържа ненасочени дъги), тогава задайте посоката на X − Y към X → Y.
Ако X и Y не са съседни, а X → Z и Z− Y, тогава променете последното на Z → Y.

Обучение на параметри с помощта на Bayesian Estimation

Оценката на параметрите на Байс (BPE) е широко използвана техника за оценка на функцията на плътност на вероятността на случайни променливи с неизвестни параметри. Да предположим, че имаме случайна променлива X, чието разпределение зависи от неизвестния параметър θ. При оценката на параметрите на Bayes, параметърът θ се разглежда като случайна променлива или случаен вектор, следващ разпределението p(θ). При байесовото изчисление вероятността за θ при дадените данни (S) се максимизира, т.е. p(θ|S). Според теоремата на Байс,

където p(θ) е предишната вероятност и p(S|θ) е вероятността.