Предположения за каузално откриване

Нежно ръководство за причинно-следствени изводи с Machine Learning Pt. 5

Всички изявления, направени с помощта на набора от инструменти за причинно-следствени изводи и причинно-следствено машинно обучение, се основават на основни предположения относно процеса, който е генерирал данните. Следователно степента, до която можете да направите причинно-следствени заключения, зависи от обосновката на тези предположения.

Следователно критичната оценка на всички предположения ще бъде неизбежна за всеки, който иска да прави причинно-следствено машинно обучение. С разнообразието от по-сложни алгоритми, модели и области на приложение (напр. времеви редове) винаги ще има допълнителни допускания за обсъждане. И все пак има и добри новини. Като сте оборудвани с разбиране за доста малък арсенал от предположения, вие ще имате всичко необходимо, за да покриете повечето от основните части на причинно-следствените изводи. По-долу се фокусираме върху класическите предположения за причинно-следствено откриване.

Преди да започнете да четете тази статия, трябва да знаете следните понятия (вижте предишните публикации):

  1. D-разделяне
  2. Причинно-следствени графики
  3. Основната идея зад причинно-следствените изводи

Защо са необходими предположения

„Не се опитваме магически да извадим причинно-следствени зайци от статистическа шапка.“

Ричард Шайнс (Университет Карнеги Мелън)

Нека останем близо до Judea Pearl и да зададем въпроса защо. Защо точно се нуждаем от тези предположения, които са толкова типични за причинно-следствените изводи и защо трябва да ни интересува?

Причината е доста проста. Нашата цел е да идентифицираме причинно-следствените връзки и причинно-следствените ефекти.

Сега, ако сте запознати с фундаменталната идея зад причинно-следствените изводи, знаете, че тези две неща не могат просто да бъдат извлечени от данни сами по себе си. Тоест в повечето случаи ние просто наблюдаваме система без възможност да извършваме интервенции върху нея.

С други думи, в повечето случаи причинно-следствените величини не са наблюдателни величини, така че не можем просто да изчислим статистически оценки. В тази настройкапредположенията играят важна роля, тъй като те осигуряват обосновка за определени математически модификации на причинно-следствени величини, превръщайки ги в статистически величиникоито могат да бъдат оценени от данните от наблюденията, с които разполагаме. Следователно важността на критичното обсъждане на приложимостта на споменатите предположения.

Използването им по грешен начин или в среда, в която не са оправдани, ще доведе до силно предубедени описания на причинно-следствените величини, което вероятно ще доведе до фатални недоразумения и грешни решения (вижте статията ни за парадокса на Симпсън за пример). Имайки това предвид, нека започнем да ги разбираме един по един.

Независимост на причината и механизма

Хората и повечето животни са доста добри в генерирането на интуитивно знание за причината и следствието на определени сценарии. Ако вашият малък племенник е поставил ръката си върху горещия плот на печката, той най-вероятно разбира, че горещите неща ще го наранят, ако се доближи твърде много до тях. Освен това ще знае, че няма значение дали котлонът е във вашата къща, в къщата на майка ви или в къщата на неговия приятел от детската градина. Прекалено близо до нещо горещо винаги води до болка. С други думи, той знае, където и да постави ръката си върху горещия котлон, реакцията на тялото винаги ще бъде една и съща. Казано по друг начин, източникът на топлина (причина) и реакцията на тялото (механизъм), която води до болката (следствие), са независими един от друг. С това той разбира фундаментално допускане на причинно-следствените изводи, независимостта на причината и механизма:

„Причината C на системата и механизмът M, чрез който причината предизвиква следствието E, са независими един от друг“.

Това предположение прави възможно извършването на локализирани интервенции, което означава, че можем да променим C, без да засягаме M.

Позволете ми да го повторя, защото е изключително важно: тъй като механизмът и причината са независими, можем да извършим всякакъв вид интервенция върху причината и да приемем, че механизмът, който свързва причината и следствието, остава същият.

При даден набор от данни, състоящ се от информация за причината C и ефекта E, факторизирането на съвместното разпределение p(c,e) ще ни даде два автономни, модулни компонента: p(c) е разпределението на причина и p(e|c) е механизмът.

p(c,e) = p(e|c) * p( c ).

Принципът на независимите механизми

Като се имат предвид повече променливи, предположението се обобщава до много удобния принцип на независимите механизми, като се посочва, че всички механизми на една система не се влияят един от друг. С други думи, въпреки че физическият механизъм, който свързва надморската височина и температурата, ще доведе до промяна в общата температура, когато вашият племенник е на върха на планината, това няма да окаже влияние върху факта, че ръката му ще боли същото, когато той докосва гореща плоча на печката.

Това води до Байесова мрежова факторизация, заявяваща, че съвместното разпределение на всички наблюдавани променливи се факторизира в продукта на всички причинно-следствени механизми.

Причинно-следственото предположение на Марков

С d-отделянето вече имаме концепция, която формализира независимостта на два набора от възли в графиката, при даден (евентуално) празен трети набор Z в каузална графика.

Използвайки каузалното условие на Марков, ние ще преведем принципа на независимите механизми в семантиката на каузалните графики и следователно ще установим елегантна връзка между вероятностните разпределения и каузалната структура. Предположението гласи:

„Възел X е независим от всички негови не-потомци, като се има предвид наборът от всички негови родители“

Въпреки че това звучи много ясно, важно е да се разпознаят произтичащите от това последици. Всеки път, когато рисуваме причинно-следствена графика, за да опишем основната система, която е произвела нашия наблюдаван набор от данни, условните независимости в набора от данни трябва да спазват структурата на d-разделяне на разглежданата графика. Ако случаят е такъв, казваме, че разпределението P е марковско по отношение на графика G (Scheines, 1997).

Следващият пример ще направи това по-ясно. Да кажем, че наблюдаваме система от четири променливи x1, x2, x3, x4. Тези четири променливи имат общо разпределение P(x1, x2, x3, x4). В нашето търсене на истинската причинно-следствена графика сега се питаме при какви условия бихме могли да наречем нашата наблюдавана система марковска по отношение на графиката G, изобразена по-долу. Преди да продължите да четете, опитайте се да го разберете сами (подсказка: ние използваме причинно-следственото условие на Марков).

Прилагането на каузалното условие на Марков ни дава отговора. P е марковски по отношение на G, ако:

Това се чете като: „x2 трябва да бъде независимо от x3, обусловено от x1“ и „x1 е независимо от x4, обусловено от x2 и x3“. Това означава, че нашето съвместно разпределение се разделя на:

Марковски еквивалентни класове

Важно е да се отбележи, че едно и също разпределение може да бъде марковско за различни каузални графики, докато от друга страна няколко разпределения на данни могат да удовлетворят условието за причинно-следствена връзка на Марков по отношение на G. Например следните две графики предполагат една и съща независимост на наблюдение чрез d- разделяне (а именно Y е независимо от C при дадено S):

и

Говорейки по-точно, и двете графики съдържат следните независимости:

За Y: Y е независимо от C при условие на S

За S: Нито една от другите променливи не е независима от S

За C: C е независимо от Y cond. на S

Всеки път, когато няколко графики съдържат едни и същи (условни) независимости, те се наричат ​​еквивалентни по Марков или в един и същ клас на еквивалентност по Марков.

Това също означава, че въпреки че може да бъде полезно в процеса, простото използване на каузалното предположение на Марков все още няма да ни даде пълната картина, тъй като резултатът ще бъде няколко еквивалентни на Марков графики, които всички отговарят на данните, които наблюдаваме. Следователно трябва да направим още една крачка напред и да съчетаем принципа на независимите механизми и причинно-следственото условие на Марков с повече предположения, които позволяват по-мощни твърдения.

На този етап е важно да се признае, че докато каузалното предположение на Марков не е достатъчно за извличане на точна каузална структура, то е основата, върху която се градят всички каузални изводи.

вярност

Когато приемем, че една причинно-следствена графика е причинно-следствена по Марков, ние приемаме, че всички независимости, които се подразбират от d-разделянето, са отразени в разпределението на данните. Това обаче не означава, че данните не включват други допълнителни независимости.

Следният пример илюстрира това:

Искаме да моделираме ефекта от тютюнопушенето върху здравето. Може да се окаже, че пушенето може да накара хората да спортуват повече, което след това би могло напълно да елиминира отрицателните ефекти от тютюнопушенето върху здравето, ако ефектите са еднакво големи по съвпадение. По този начин, въпреки че здравето и пушенето не могат да бъдат d-разделени, те са независими в разпределението на данните. В такъв случай казваме, че данните не са верни на причинно-следствената графика, която ги е генерирала. По-точно, наборът от данни е неверен, ако причинно-следствената графика, която е генерирала определено разпределение, не покрива всички независимости на данните.

Обратно, когато приемаме данните за верни, ние приемаме, че причинно-следствената графика отразява всички вероятностни независимости в своите d-разделяния. Така че приемаме, че когато има някаква независимост в данните, те са причинени от основната структура на графиката, която ги е генерирала, а не от някакво случайно съвпадение. Това би било така, ако положителният ефект от упражненията е точно равен на отрицателния ефект от тютюнопушенето.

Въпреки че мащабът на това предположение първоначално изглежда малък, неговото въздействие е доста голямо, тъй като драстично намалява набора от графики, които биха могли да обяснят основната структура на системата.

Причинно-следствена достатъчност

Причинно-следствената достатъчност гласи, че всички объркващи фактори на наблюдаваните променливи са измерени и са включени в данните. Вероятно трябва да прочетете това изречение отново: „приема се, че всички объркващи фактори се наблюдават“. Ние имплицитно направихме това предположение в примера по-горе, като не повдигнахме въпроса дали може да има друга ненаблюдавана променлива x4, която е объркваща между x1 и x3, което води до статистическата зависимост между двете променливи.

За съжаление, приемането на причинно-следствена достатъчност не е реалистично в повечето случаи, тъй като е много вероятно да съществуват много ненаблюдавани объркващи фактори. По този начин, дали това предположение може да бъде направено, трябва да се обсъжда за всяка приложна задача. Ако резултатът е, че предположението не може да бъде направено, част от умозаключението ще бъде загубена, но за щастие обикновено не цялата. Въпреки че трябва да признаем, че напр. откритата връзка между x1 и x3 може да е резултат от ненаблюдаван объркващ фактор, все пак можем да направим валидни твърдения за несъществуването на причинно-следствени връзки.

Резюме

Досега обсъдихме 3 основни допускания, които са необходими за изучаване на основната причинно-следствена структура на наблюдавана система.

  1. Причинно предположение на Марков:Възел X е независим от всички негови не-последници, като се има предвид наборът от всички негови родители. Следствие: Независимостите, подразбиращи се от d-разделяне на съответната графика, се запазват във вероятностното разпределение на данните.
  2. Приемане за достоверност:Причинно-следствената графика представя точно отношенията на независимост на разпределението, подразбиращи се от d-разделяне. Последствие: Всички отношения на независимост в данните са причинени от основната структура на графиката, която ги е генерирала, а не от някакво случайно съвпадение, което стеснява обхвата на възможните причинно-следствени графики.
  3. Причинно-следствена достатъчност:Всички объркващи фактори на съответните променливи се наблюдават в дадения набор от данни. Последствие: ръбовете в DAG предполагат причинно-следствени връзки.

Както показва тази статия, предположенията, които правите, до голяма степен диктуват какви изводи можете да направите.

Причинно-следственото условие на Марков, предположението за вярност и достатъчност ни позволяват да научим причинно-следствени структури от данни, използвайки условни тестове за независимост. За да видите тези предположения в действие, погледнете нашата статия за причинно-следственото откриване с компютърния алгоритъм (в по-късна публикация в блога).

Благодаря!

Също така: За повече литература по темата вижте „Scheines, R. (1997). Въведение в причинно-следствените изводи”, откъдето взехме някои от графиките.

За авторите:

Кенет Стипа е част от групата за причинно-следствени изводи в Института за наука за данни на Германския аерокосмически център. Има опит в областта на информационните системи и предприемачеството от UC Berkeley и Zeppelin University, където е участвал както в стартиращи, така и в изследователски проекти, свързани с машинното обучение. Освен съвместната работа с Якоб, Кенет е работил като специалист по данни в BMW и в момента следва дипломата си по приложна математика и компютърни науки в Хайделбергския университет. Повече на: https://www.linkedin.com/in/kenneth-styppa-546779159/

Jonas Wahl е следдокторантски изследовател в изследователската група Climate Informatics в TU Berlin. Той получава докторска степен по математика в KU Leuven (Белгия) и е работил в Центъра по математика Хаусдорф в Бон, преди да се присъедини към групата на Якоб в TU Berlin. Изследванията му се фокусират върху причинно-следствени изводи за високомерни пространствено-времеви данни. Можете да прочетете повече за Джонас на неговия личен уебсайт https://jonaswahl.com.

Якоб Рунге оглавява групата за причинно-следствени изводи в Института за наука за данни на Германския аерокосмически център в Йена и е председател на компютърните науки в TU Berlin. Групата Causal Inference разработва теория за причинно-следствените изводи, методи и достъпни инструменти за приложения в науките за земната система и много други области. Якоб има докторска степен по физика от Хумболтовия университет в Берлин и започва своето пътуване в причинно-следствените изводи в Потсдамския институт за изследване на въздействието върху климата. Методите на групата се разпространяват с отворен код на https://github.com/jakobrunge/tigramite.git. Повече за групата на www.climateinformaticslab.com

Друг чудесен източник за първо и лесно въведение в причинно-следствените изводи:

Нийл, Б. (2020). Въведение в причинно-следствените изводи от гледна точка на машинното обучение. Бележки от лекции по курса (чернова).