Ако някога сте попадали на материал, който въвежда байесовото заключение, ще откриете, че той обикновено включва пример за това колко подвеждащи могат да бъдат някои медицински тестови устройства при откриването на болести. Други варианти на този пример включват използване на дрегер за откриване на количеството алкохол в кръвния поток или, ако искаме да сме креативни, някакво измислено устройство, което може да различи обикновен човек от върколак. Схванахте идеята. Тези примери включват предоставяне на читателя на няколко критични променливи/константи, които са необходими за включване в теоремата на Байс, като например:

  • Разпространението на заболяването в популацията, което ще определим като наш предварителен, или вероятността на хипотезата P(H):
    P(H)=0,001 (т.е. има 1 човек, носител на болестта на всеки 1000 души)
  • Истински положителен процент (TPR) на медицинския тест, което е вероятността устройството да ВЪРНЕ ПОЛОЖИТЕЛНО, което показва, че смята, че имате заболяването, дадено (представено от “” ) фактът, че НАИСТИНА сте ЗАРАЗЕН с него:
    P(EH) = 0,95 (т.е. устройството ще идентифицира правилно 95 от 100 души, които са носители на болестта)
  • Процентът на фалшивите положителни резултати (FPR) на медицинския тест, което е вероятността устройството да ВЪРНЕ ПОЛОЖИТЕЛНО, което показва, че имате заболяването, предвид факта, че сте ДЕЙСТВИТЕЛНО НЕ Е ЗАРАЗЕН:
    P(EH−) = 0,01 (т.е. устройството ще маркира неправилно 1 човек като заразени от 100 души, които не са носители на болестта)

Друг ключов компонент в теоремата на Байс, който не е изрично дефиниран, но е също толкова необходимо да се знае, е Вероятността на доказателството, известна още като Маргинална или Средна вероятност. Средната вероятност използва Закона за пълната вероятност, който гласи, че резултатът от ВСИЧКИ събития трябва да е равен на 1, като по този начин се определя количествено вероятността доказателствата да са верни. Неговата работа е да стандартизира задната част, за да получи вероятност определено събитие да се сбъдне. Например, ако очакваме биномно разпределение от задната част, като например вероятността да бъдеш заразен срещу незаразен или вероятността монета да падне на глави срещу опашки, можем да генерираме средна вероятност чрез добавяне на двете вероятности заедно:

  • ***Имайте предвид, че Pr(H-), което е вероятността да НЕ носите болестта, беше единствената променлива, която не предоставихме. Въпреки това можем лесно да го изчислим, като го извадим от 1: Pr(H-) = 1 — Pr(H)

След предоставяне на необходимите константи, въпросът, с който често оставаме, за да илюстрираме използването на теоремата на Бейс, е следният:

Каква е вероятността да ДАДЕТЕ ПОЛОЖИТЕЛЕН ТЕСТ за носителство на болестта предвид факта, че В действителност сте ЗАРАЗЕН?

Това е триков въпрос, защото повечето хора ще отговорят с TPR на медицинското изделие (95%), без да вземат предвид разпространението на болестта сред по-широката популация. В случая на TPR, информацията, която съдържа, е донякъде противоположна на въпроса, който задаваме, тъй като TPR предполага, че вече сте заразени, така че просто ви предоставя вероятността медицинският тест ще го идентифицира. Така че с нашия „трик въпрос“, това, което наистина питаме, едали наистина сте заразени с болестта или не СЛЕД положителен тест за нея. На този етап все още не е известно дали наистина носите болестта или не и в крайна сметка това е въпросът, на който се опитваме да отговорим.

И тук е мястото, където митичната теорема на Байс е представена като математическо решение, което използва доказателствата, с които разполагаме (представени като P(E) ), за да актуализираме предишните си вярвания (представени като P(H)), което води до нови и актуализирани последващи вярвания. Така можем да изразим идеята за теоремата на Байс с помощта на математическото уравнение:

За тези, които все още са малко неуверени в Bayesian Statistics, нека навлезем малко по-дълбоко във философията зад тази алтернативна вселена. Байесовата статистика е това, което мнозина смятат за друга философия към статистиката и вероятността, която позволява на практикуващия да интегрира живия си опит или предишни знания към въпрос, на който се опитват да отговорят, използвайки данни. Най-общо казано, байесовият подход към вероятността предполага, че можем да подобрим разбирането си за интересуваща ни тема, като актуализираме предишните си знания въз основа на доказателствата (т.е. данните), на които се натъкваме. Така че колкото повече данни и информация имаме за нашата конкретна тема, толкова по-силни можем да затвърдим нашите вярвания въз основа на наблюденията, които сме преживели. За разлика от това, ако имаме солидна предварителна база от знания по тема, която изучаваме, ще са необходими значително повече данни/доказателства, за да променим нашите дългогодишни убеждения. В известен смисъл байесовият метод за актуализиране на информация имитира отблизо процеса на „научно изследване“ при използване на наблюдения за формиране и/или актуализиране на нашия обем от знания.

И, разбира се, би било небрежно поне да споменем как байесовият възглед за вероятността се съпоставя с често срещания възглед за вероятността, който често е стандартната гледна точка на статистиката, преподавана в училищата. От гледна точка на Frequentist относно вероятността, има обективна основна истина за явление, което ни интересува, за което получаваме по-ясна картина, когато увеличим размера на нашата извадка. Често срещаните гледат на вероятността като свойствона повтарящо се събитие, НЕ като субективно вярване или предишна хипотеза. Така, например, ако хвърлим монета 100 пъти и тя се приземи върху глави 50 пъти, тогава Frequentist би интерпретирал, че монетата има обективно, свързано свойство да кацне върху глави 50% от времето. За разлика от Байесовия подход, фреквентистите не приписват вероятности на вече съществуващи хипотези или модели, така че в известен смисъл те подхождат към всеки проблем като към празен лист. Според тях изявленията за вероятност за събитие или хипотеза са верни или неверни въз основа на наблюдаваните данни.

Връщайки се към нашия казус с медицински тестове, константите, предоставени в началото, представляват нашите предишни стойности, които ще използваме, за да актуализираме нашите вярвания въз основа на нашите резултати от медицински тестове. Както често ще разберем в края на демонстрацията, ако въведем предоставените константи, ще открием, че шансовете наистина да сме носители на болестта след като медицинският ни тест покаже, че сме заразени, всъщност е много ниско:

Въпреки че често е изненадващо, че шансовете да се заразим с това заболяване след положителен тест за него е само около 9%, заобиколното решение за това е повторно тестване. Ако направим същия медицински тест втори път и той ПОКАЖЕ, че сме носители на болестта, тогава има около 90% вероятност НАИСТИНА да сме ЗАРАЗЕНИ. За да направим това, всичко, което трябва да направим, е да изпълним същото изчисление, но вместо това да актуализираме нашия нов априор със задния, който току-що решихме за P(H) = 0,087:

Сега, след като прегледахме кратък преглед на това как работи теоремата на Бейс, нека сега се опитаме да разберем защо този общ пример представя погрешно байесовото тълкуване на вероятността. Една от най-големите причини, поради които не съм съгласен с общата техника за подчертаване на теоремата на Байс за въвеждане на байесова статистика, е, че използвахме фиксирани константи (т.е. P(H)=0,0001 или TPR=0,95, и т.н.) в нашия пример, за да генерираме нашите задници, така че няма нищо уникално „байесово“ в това (McElreath, 2020). Казано по-просто, това, което отличава Bayesian Inference от другите интерпретации на вероятността, е чрез широкото му използване на вероятността за генериране на постериори, НЕ чрез използването на теоремата на Bayes (McElreath, 2020). Bayesian Inference ни позволява да разгледаме набор от възможни резултати, а не само едноточкова оценка, която е полезна в ситуации, в които има несигурност или двусмислие относно истинското състояние на света. За да поясним, терминът „точкови оценки “ е просто термин на Байес за „фиксираните константи“, които дефинирахме в началото на нашия пример, като TPR на нашите медицински тестове. Точковите оценки често се появяват в байесовската литература, за да се опише идеята, че вземането на едно число за представяне на цялостно разпределение на резултатите може да бъде вредно, защото ние ще загуби цялата информация и нюансите, свързани с посочените резултати. Независимо от това как обичаме да опростяваме нещата, за да се вместим лесно в нашите умствени модели, световете, които изучаваме, по своята същност са объркани и двусмислени. Отчитайки целия диапазон от резултати или вероятности, Bayesian Inference ни позволява да правим по-нюансирани и точни прогнози.

И така, с всичко казано до тук, как можем да подобрим предишния пример, за да илюстрираме как Bayesian Inference работи в реалния свят? Вместо да правим предположения относно вероятностите от предишното (0,001), тъй като може да е трудно да се получат точни оценки на разпространението на болестта в популацията, вместо това можем да разгледаме подгрупа от възможни стойности. И тъй като сме скептични относно заявеното разпространение на вируса, нека генерираме наши собствени оценки, като използваме няколко библиотеки на Python, като NumPy или Pandas. В този случай ще използваме кода, за да симулираме диапазона от възможни резултати между случаите, когато болестта има нисък процент на разпространение, който заразява 1 на всеки 10 000 души (0,0001) и висок процент на разпространение, който заразява 1 на всеки 10 души (0,1). Всяка стойност, която генерираме, ще служи като предходна, от която ще картографираме свързана последна стойност.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
 
# Constants
prior_dist = np.arange(0.0001, 0.1, 0.0001) 
likelihood = 95/100
false_pos = 1/100

След като разполагаме с нашия списък с възможни стойности, представящи разпространението на болестта сред популацията, можем да генерираме вероятността да сте се заразили с болестта, след като първоначално сте дали положителен тест за нея. Например, с първата стойност в нашето разпределение, ние си задаваме въпроса: Ако приемем, че болестта заразява 1 от 10 000 души (0,0001), какво е вероятност да сме се заразили след положителен тест от нашето медицинско устройство? В този пример ще открием, че има по-малко от 1% шанс действително да сме се заразили с болестта (0,9412%) поради ниското разпространение на болестта.

# Calculating the posterior distribution
posterior_dist = []
 
for point_est in prior_dist:
  posterior_est = (point_est * likelihood) / ((point_est * likelihood) + ((1-point_est) * false_pos))
  posterior_dist.append(posterior_est)
 
val_dicts = {"priors": prior_dist, "posteriors": posterior_dist}
med_df = pd.DataFrame(val_dicts) # For ease of querying

От този момент нататък ще генерираме вероятностите за заразяване с болестта след положителен тест за нея, когато преобладава при всеки 2 души от 10 000, след това при 3, след това при 4 и така нататък, докато достигнем предишна стойност, която предполага 1000 на всеки 10 000 души (с други думи, 1 на 10) са заразени. И накрая, след като сме генерирали последващо разпределение, можем да начертаем графика на връзката между нашите предишни и последни стойности и да сравним къде нашата първоначална точкова оценка ( p = 0,001) попада в това крива.

fig = plt.figure(figsize=(10, 6), dpi=80)
plt.plot(med_df["priors"], med_df["posteriors"])
plt.scatter(med_df[med_df["priors"] == 0.001]["priors"], med_df[med_df["priors"] == 0.001]["posteriors"], color="red")
plt.ylabel("Posterior Probability $p(disease+ \mid test+)$")
plt.xlabel("Prior Probability $p(disease+)$")
plt.title(f"The probability distribution of catching the disease given that device is  {(100 * likelihood):.0f}% in detecting it")

Едно наблюдение, което можем да направим от графиката, е, че шансът да се заразите с болестта след положителен тест за нея се увеличава експоненциално, тъй като степента на разпространение на болестта сред населението също се увеличава. Разбира се, това предполага, че нашето медицинско устройство наистина е 95% точно при положително диагностициране на пациент, който вече е заразен. Ако бяхме скептични относно тази цифра, бихме могли също така да генерираме списък с възможни стойности за ефективността на нашето медицинско устройство, нещо, което можем да разгледаме в по-късни публикации в блогове.

При възприемането на вероятностен подход чрез разглеждане на набор от различни предишни стойности, вместо да разчитаме на оценка с една точка, какъвто е случаят с много уводни примери за байесовия извод, ние оставаме по-верни на байесовия възглед за вероятността . Въпреки това преподавателите не трябва да пренебрегват възприемането на вероятностен подход, когато въвеждат байесовската статистика. Без него по-новите практици естествено ще формират силни предпоставки, че теоремата на Байс е това, което определя цялото поле на байесовия статистически извод!

Благодаря ви, че преминахте през цялата ми статия! Ако се интересувате да научите повече за байесовската статистика, работя върху проект, който ясно и кратко обобщава основните моменти във всяка глава от текста: Статистическо преосмисляне: байесовски курс с примери в R and Stanот Richard McElreath, който е директор и редовен професор в Института по еволюционна антропология на Макс Планк. Ще ви приветствам да разгледате свързаното с проекта „Github repo“, ако проявявате интерес да следите работата ми или да научите повече за Bayesian Statistics. Честита Нова година и очаквайте да чуете повече от мен през 2023 г.!

Референции

McElreath, R. (2020). Статистическо преосмисляне: Байесов курс с примери в R и Stan. Рутлидж. http://xcelab.net/rmpubs/sr2/statisticalrethinking2_chapters1and2.pdf