Лъжи, големи лъжи и наука за данните?

Сигурен съм, че с цялата шумотевица около науката за данните, машинното обучение и изкуствения интелект сте останали с впечатлението, че данните са безпогрешни. Хората, изграждащи тези модели, са магьосници, които знаят какво правят. Учените по данни са тук, за да революционизират всяка индустрия, имате проблем, те ще измислят решение, при условие че разполагате с данните.

Нищо не може да бъде по-далеч от истината. В действителност науката за данните е по-нюансирана от включването на данни в модел и получаването на резултати. Ако сте наполовина умен, можете да измислите начин да получите или да „излъжете“, за да получите резултатите, които искате. Ако сте човек, който не е добре запознат с машинното обучение или статистиката, тази статия със сигурност ще ви просвети да разберете дали сте „лъгани“.

По-долу са описани често срещани начини, по които можете да бъдете измамени. Изследването, направено за статията, е от книга на Даръл Хъф, подходящо наречена „Как да лъжем със статистиката“ и от различни други ресурси като главния учен за вземане на решения в Google – поредицата в YouTube на Каси Козирков „Да се ​​сприятеляваме с машинно обучение“. И накрая, има информация от собствения ми опит да бъда „излъган“.

Аз съм над „средния“

Често на хората се представят статистически данни под формата на средни стойности. Например в новините ще чуете за средни цени, доходи или валежи и т.н.

Чудили ли сте се някога как е изчислена средната стойност или по-точно за коя „средна стойност“ се говори? Повечето от нас приемат, че човекът говори за средно аритметично. Просто сумиране на всички измервания или стойности и разделяне на броя на измерванията.

Разбира се, има и други „средни стойности“, като вземане на най-средната стойност (медиана), най-честата стойност (режим), мултипликативната „средна“, т.е. средно геометрично и т.н.

Може би се чудите защо има значение? За да мотивираме защо това е важно, нека да разгледаме един пример. Нека си представим, че сте треньор по крикет и се опитвате да вземете решаващо решение по средата на мача. Вашият отбор в момента гони и се нуждае от 30 ръна, за да спечели. Имате само един останал уикет и трябва да изпратите последния си батсман. Имате два избора за това кой да изпратите играч X или играч Y. Това е важно решение, тъй като може да увеличи или наруши шансовете на вашия отбор да спечели серията. Как бихте преценили кой играч да изпратите?

За ваш късмет ръководството на вашия екип е наело учен по данни, който да ви помогне да разберете този вид дилеми. Помолите ги за помощ, те казват, нека проверим разпределението на точките на всеки от тези играчи (чудесен начин да кажем, нека да разгледаме колко вероятно е всеки играч да отбележи редица рънове). Те визуализират разпределението на точките на всеки от играчите.

Забележка: Разбирам, че в крикета има множество променливи, които трябва да се вземат предвид, когато се оценяват играчите, но за този пример нека приемем, че всичко останало е постоянно и единственият диференциращ фактор са рънове, които всеки играч отбелязва.

Можете ли да решите кой играч да изпратите в тази ситуация? Разглеждайки средната аритметична стойност, можете да кажете, че играч X е по-добър, тъй като той/тя има по-висока средна стойност от 37,4 ръна срещу 25,7 ръна на играч Y. Но ако погледнете средните резултати, можете да видите, че Играч Y постига резултати над20 ръна в 50% от времето и под 20 ръна в 50% от времето, което е по-високо от медианата на играч X от19 ръна. (Може би играч Y има по-голяма вероятност да направи 30 ръна и по-високата средна стойност на играч X се дължи на отклонения).

Объркващо, нали? Правилният отговор се нуждае от повече анализ —„вижте частта за разпределенията до това, за да разберете кого да изпратите — но интуитивно медианата осигурява по-добър показател в този случай, но това само по себе си може да не е достатъчно.

Всъщност „Нормално“ ли е?

Продължавайки примера с крикет, проблемът, който вие като треньор по крикет се опитвате да разрешите, се равнява на въпроса кой играч има по-голяма вероятност да отбележи поне 30 ръна. В математическата нотация това е еквивалентно на въпроса кое е повече P(резултат на играч X ≥ 30) или P(резултат на играч Y ≥ 30).

Когато се опитваме да разрешим такива неравенства, ние разглеждамеФункцията за кумулативна плътност (CDF). (CDF е фантастично име за функция, която казва каква е вероятността за случайна променлива X (т.е. резултати на играч), които са по-малки от стойност c (30 ръна в нашия случай )). Ако някога в живота си сте се сблъсквали с процентили, вие сте се запознали с концепцията за CDF. Например 99-ият персентил съответства на стойността на X, където CDF(X) =0,99, а медианата е стойността, при която CDF е 0,5 или 50-ия персентил.

Не се притеснявайте, ако смятате, че тези терминологии са объркващи, всичко, което трябва да знаете е, че трябва да разгледаме процентилите на резултата на всеки играч и всеки играч, който премине 30 при по-нисък процентил, има по-голяма вероятност да отбележи поне 30 ръна.

Както можете да видите, че за този проблем Играч X отбелязва 30 ръна или по-малко при 59-ия процент, което означава, че вероятността да се вкарат поне 30 ръна е 41%. Което е по-високо от вероятността на играч Y да вкара поне 30 ръна от 29% (71-ви процентил се превежда като 71% от времето, когато играч Y отбелязва по-малко от 30 ръна, за да получим вероятността да вкара повече от 30, трябва да извадим с 1). Забележете, че отговорът изобщо не беше очевиден и нямаше начин да го откриете само с помощта на „средни стойности“.

Погледнете внимателно CDF и вижте как е назъбен и двамата играчи почти вървяха един срещу друг до медианата. След което играч X започва да бележи по-агресивно. Целта е да се покаже, че често срещаното явление може да има множество различни разпределения.

Вероятностните разпределения идват във всякакви форми и размери; те са много важни при правене на изводи или моделиране. Един често срещан начин за „лъжа“ е извеждането на информация въз основа на грешно разпространение. В училище и в повечето уводни класове по статистика хората се учат да приемат нормално разпределение. Нормалното разпределение е повсеместно поради много важен резултат в статистиката, наречен „Теорема за централната граница“.

„Теоремата гласи, че ако вземете достатъчно големи независими извадки от всяко разпределение с крайна вариация и ги осредните, тогава средната извадка ще бъде нормално разпределена.“

Забележете как тази дефиниция пренебрегва много важни моменти, като например какво са „независими проби“ и какво означава „достатъчно голяма извадка“ на практика? Трябва ли нашият размер на извадката да бъде 10, 100, 1000 или 1 000 000? Също така, възможно ли е основното разпределение на нашите данни да има безкрайна вариация?

Отговорът е, че зависи от дистрибуцията, от която вземате проби, и начина, по който вземате проби. Има представа колко „нормално“ е вашето разпределение; което може да бъде измерено чрез теста на Колмогоров-Смирнов за нормалност. И да, има примери за явления, при които дисперсията може да бъде безкрайна, например се твърди, че разпределението на дневната възвръщаемост на акциите всъщност е безкрайно. За съжаление, това са теми извън обхвата на тази статия, но трябва да ги разгледате.

Важното нещо, което трябва да запомните е, че не можете да приемете нормално разпределение само поради централната гранична теорема, първо трябва да извършите статистически тестове като теста на Колмогоров–Смирнов, за да видите дали предположението е валидно и след това да се опитате да направите изводи . В горния пример за крикет, ако вашият „учен по данни“ просто продължи и предположи, че резултатите на всеки играч идват от нормално разпределение и погледна CDF, може да произведе нещо подобно.

Червената зона показва области, където играчите отбелязват отрицателни рънове, което няма смисъл! Въпреки че за нашата първоначална постановка на проблема - кой играч е по-вероятно да отбележи 30 ръна или повече - нормалното приближение дава правилния резултат; въпреки това той дава грешни оценки за вероятността от тези резултати, заявявайки, че основното разпределение „вероятно“ не е нормално.

Защо да използваме нормалното разпределение, ако то дава грешни резултати? Е, нормалното разпределение е модел, който при определени допускания може да бъде много полезен. Въпреки това, както всеки модел, той е „грешен“ и неговата полезност се основава на предположенията, при които работи. Това ни води до следващата ми точка, че моделите, независимо дали са прости вероятностни разпределения или много сложни невронни мрежи, всички работят при много стегнат набор от допускания и всеки добър специалист по данни трябва да разбере какви са тези допускания, как работят и кога и как те биха могли да бъдат нарушени.

Всички модели са "грешни"

Казано е, че „всички модели са грешни, но някои модели са полезни“. С други думи, всеки модел е в най-добрия случай полезна фикция - никога не е имало или някога ще има точно нормално разпределение или точна линейна връзка. Въпреки това е постигнат огромен напредък чрез приемането на подобни измислици и използването им като приближения. — Джордж Бокс

Горният цитат от статистика Джордж Бокс идеално обобщава идеята, която искам да предам. Разработих по-подробно някои от проблемите при използването на нормалното разпределение, сега нека да разгледаме как моделите са „погрешни“ и неразбирането как или защо са погрешни може да доведе до всякакви „лъжи“.

Тъй като би било невъзможно да се изброят всички алгоритми и да се каже как да се приложи всеки правилно, нека разгледаме само един и да анализираме как неправилното му прилагане може да доведе до грешни резултати. Обикновената линейна регресия на най-малките квадрати е един от най-основните и повсеместно прилагани методи, използвани за прогнозиране на непрекъснати резултати.

Предположения за линейна регресия (OLS): -

  1. Линейност: Зависимата променлива y и независимата променлива(и) x са линейно свързани (експонентата на x е 1)
  2. Остатъчна нормалност: Сумата от квадратните остатъци: sum(y(действително)- y(предвидено))² е нормално разпределена, можете да използвате теста на Колмогоров–Смирнов, за да определите дали това е вярно
  3. Независимост и липса на мултиколинеарност: Нито една от променливите x не зависи една от друга, корелацията между независимите променливи трябва да е нула или малка
  4. Хомоскедастичност: Грешката или остатъците имат една и съща дисперсия за всички стойности на x.
  5. Без отклонения или цензуриране: Трябва да има никакви или малко точки, които могат да променят y, например огромни стойности много над средната стойност на y или цензуриране при нула (y — често срещано, когато това, което регресирате, не може да бъде отрицателно — като резултати от крикет)

Разглеждайки горната диаграма, можете ли да разберете дали връзката между Y (резултат на играча) и X (изиграни топки) е линейна или би била по-подходяща полиномна функция с по-висока степен като x²? Откъде знаеш? Един от начините да отговорите е да изпробвате различни математически функции и след това да използвате функция на разходите, за да определите коя е най-подходящата. Отговорът обаче отново не е очевиден, линейната връзка би била достатъчна за повечето стойности, но би се провалила ужасно в долния край, когато играчът излезе с нула рънове. Резултатите на играчите са цензурирани под нула — невъзможно е да се отбележат отрицателни точки.

Линейната регресия не би могла да даде разумен отговор поради гореспоменатите нулеви стойности и наличието на извънредни стойности. Едно решение е да се използва модел „Tobit“, който комбинира двоичен класификатор с регресионен модел. Двоичният класификатор прогнозира дали играчът ще излезе на нула или не. Ако класификаторът прогнозира, че не е излязъл, изпълнете линейна регресия върху останалите, за да получите по-точно съответствие.

За да проверите дали остатъците имат нормално разпределение, можете да използвате диаграма Quantile-Quantile (QQ графика). Оста x е теоретичното разпределение на квантилите, които са валидни, ако данните имат перфектно нормално разпределение, стойностите на оста y са остатъци от нашия модел. Червената линия от 45 градуса е еталон, ако всички точки лежат на линията, тогава остатъците са напълно нормални. Отклонението от линията е индикатор за това колко далеч са остатъците от нашата проба.

В този случай остатъците не са нормално разпределени, тъй като повечето точки са далеч от червената линия, което показва, че ако искате да направите някакво статистическо заключение с модела, т.е. тестване на хипотези, не трябва да използвате линейна регресия. Вместо това изградете обобщен линеен модел (GLM) с по-добро подходящо разпределение за остатъците. Линейната регресия и други линейни модели като логистичната регресия са примери за GLM със собствен набор от предположения. По-лесният начин да мислим за това е от гледна точка на тортите. Ако линейната регресия е торта с шоколадов крем, тогава GLM са набор от всички възможни торти.

Хомоскедастичността на обикновен английски означава, че разпределението на дисперсията на y не се променя със стойностите на x. Дисперсията на y при дадено x е една и съща, когато x е 20 или когато x е 100. Горната диаграма показва остатъците на нашия модел спрямо монтираните или прогнозираните стойности на нашите модели. С нарастването на монтираните стойности (в този случай x се увеличава, тъй като положителната връзка между x & y) остатъците стават по-разпръснати. Това означава, че вероятно дисперсията на y не следва едно и също разпределение за всички стойности на x. Така че ударите (Y) са хетероскедастични, а не хомоскедастични, което означава, че не можете да правите статистически заключения за връзката между x & y.

Важна забележка:Хетероскедастичността, мултиколинеарността и остатъчната нормалност са проблеми, ако искате да направите статистически заключения, като използвате оценките на вашата регресия. Което често е по-проницателно от простите прогнози! В този конкретен пример изчисленият коефициент на x ще ни каже колко допълнителен резултат отбелязва Играчът за всяка добавяща топка, която играе.

Надявам се, че тази публикация е била проницателна, за да ви накара да разберете как науката за данните е много по-сложна от простото включване и дръпване, без да се грижи за имплицитни допускания зад анализите.