Чували сме твърде много пъти, че корелация != причинно-следствена връзка, но изглежда никой не си прави труда да попита защо, след като го чу. В човешката природа сме склонни да приемем, че: само ако A причинява B, тогава B се променя, когато A се променя. Нека видим защо това предположение е грешно с помощта на примера по-долу: тормоз в училище.

Пример за тормоз в училище

Ученик X тормози ученик Y.

Ученикът Y изпадна в депресия.

Студентът Y се самоуби.

Ние описваме трите събития, показани по-горе, като възли A, B и C. Искаме да разработим графика, за да илюстрираме качествената причинно-следствена връзка. Качествената връзка в този случай означава, че знаем, че:

Поведението, с което ученик X е тормозил ученик Y, ще направи ученика Y депресиран. Но не знаем колко пъти X, тормозен от Y, ще доведе до депресия. (Веднъж седмично? Веднъж на ден? Всеки път, когато се срещнат?)

Чрез пропускане на количествените връзки (обикновено се изискват повече данни, за да сме сигурни в количествените връзки), можем да формираме някои хипотези (истории) за данните и да ги тестваме чрез обусловяване на някои от тях и копаене на причинно-следствена връзка.

Причината, поради която правим това (промяна на данните вместо провеждане на контролиран експеримент), е преди всичко цената. Понякога също е невъзможно да се проведе широкомащабно разследване, при което нямате контрол върху някои фактори: възраст/физическо състояние/ и т.н. Трябва да живеем с наличните данни.

Графичен модел и данни

Както можем да видим на фигурата по-горе, ако има стрелка от възел A към възел B, казваме, че A причинява B (но тъй като е само качествено, ние не знаем нивото на причинно-следствената връзка). Ако A сочи B и B сочи C, ние също знаем, че A причинява C до известна степен.

Ако приемем, че разполагаме с набор от данни като този от изследователски център, който работи върху опити за самоубийство. Има три колони, съответстващи на предишните три събития.

Искаме да отговорим на този въпрос:

Валидна ли е качествената графика въз основа на данните, които получихме?

Обуславянето на променливите е от решаващо значение

Данните са измамни. Вижте примера за холестерола по-долу от книгата на проф. Джудея Пърл: ПРИЧИННО-СЛЕДСТВЕН ИЗВОД В СТАТИСТИКАТА: ОСНОВЕН ИЗВОД.

Когато обуславяме различни възрасти, данните подкрепят напълно различни истории. И знаем със сигурност, че упражненията водят до нисък холестерол. В други случаи причинно-следствената връзка не е толкова очевидна.

Обратно към нашия пример за тормоз, ако поставим условие за събитие B (ниво на депресия на учениците), тормозът причинява ли директно опити за самоубийство? Противно на интуицията, не е вярно дали нашата качествена графика е правилна.

Като обуславяме B, ние премахваме причинно-следствените ефекти от A към B и B към C. Тогава само екзогенни променливи, които по дефиниция са независими една от друга, засягат A и C. Следователно A НЕ причинява директно C.

След това отиваме до набора от данни и групираме точки от данни спрямо. нивото на депресия. Ако е вярно, че променлива A (да бъдеш тормозен или не) е независима от променлива C (да се самоубиеш или не), заключаваме, че нашата история (качествена графика) е точна. Ако групираните данни противоречат на нашата графика, знаем, че има нещо нередно в нашата структурна причинно-следствена графика. Следната графика може да бъде нашата нова история,

Две алтернативни истории: представени от структури на confounder и collider

Екзогенните променливи са пропуснати за целите на яснотата. Кажете ми, каква е историята, която се опитваме да тестваме тук, съответно?

Ще използваме колайдер, за да покажем защо корелацията НЕ води до причинно-следствена връзка. В дясната графика приемаме, че събитие A и събитие B са независими едно от друго, тъй като нямат стрелки между тях. И ние вярваме, че A причинява C директно и B причинява C директно.

Да предположим, че поставяме условие за събитие C, което означава, че разглеждаме само данните, при които учениците не са се самоубили. В този случай внезапно ще открием, че A и B са силно свързани, за да накарат събитие C да генерира същия резултат.

Например, има няколко случая, в които ученици не са се самоубили. Въз основа на наивна преценка знаем, че ако са депресирани и тормозени едновременно, има вероятност да пречупят ръба. Най-вероятно в тази „подгрупа без опити за самоубийство“ учениците или са тормозени, или са депресирани, за да могат да се справят със ситуацията. (с отрицателна корелация!)

По този начин, ако съберем данните само за събитие A и събитие B в този случай, ще видим, че A и B са отрицателно корелирани, но това НЯМА причинно-следствена връзка.

Справка:

http://bayes.cs.ucla.edu/jp_home.html