„По-рано“ показахме, че моделирането на повишаване, успешна история на причинно-следствените изводи за бизнеса, може да надмине по-конвенционалните модели на отлив. Както при всяко приложение за причинно-следствени изводи, идентифицирането и оценката на причинно-следствените ефекти разчита на ключови допускания относно данните. Докато отхвърлихме тези предположения настрана, задоволявайки се с твърдението, че те са валидни винаги, когато променливата за лечение е напълно рандомизирана, сега ще представим и разгледаме двете основни предположения за игнориранеи позитивност.

Има две други предположения - липса на намеса и последователност - които не обсъждаме в тази публикация. За да научи повече за тях, ще насочим читателя към този учебник. От друга страна, игнорирането и позитивносттаса силни и е малко вероятно да се запазят в данните от наблюденията.

Засега нека проучим един сценарий, който е от особен интерес както за здравноосигурителните, така и за доставчиците на здравни грижи: измерване на ефекта от приема на антидиабетни лекарства върху вероятността за повторно приемане в болница.

История за пристрастия

Всяка година хиляди американци с диабет биват приети в болница, за да получат грижи, които могат или не могат да бъдат свързани с тяхното диабетно състояние. В името на тези пациенти и за да се сведат до минимум разходите за системата на здравеопазване в САЩ, трябва да се избягва повторно приемане в болница. Това се случва, когато пациентът бъде приет в болницата в рамките на 30 дни след изписването. Поради това е важно да научите ефекта от потенциалните интервенции. Една възможна интервенция е предписването на всякакъв вид антидиабетно лекарство (ADM) по време на първоначалния болничен престой на пациента.

За да измерим този ефект, бихме могли да съберем данни за изписване от болницата на пациенти с диабет и да моделираме обратно приемане в болница като разлика в средната стойност между две групи: едната група с рецепта за ADM, другата група без него. С други думи, бихме оценили разликата в условните очаквани реадмисии:

За съжаление, тази разлика не идентифицира причинно-следствен ефект! Наистина, помислете за неизмерената тежест на нечие диабетно състояние или други здравословни проблеми. Тази тежест вероятно корелира положително с вероятността на пациента да е предписан ADM. Същият пациент е по-вероятно да претърпи усложнения след изписването, като по този начин увеличава шансовете си за повторно приемане. Ето го -пристрастие. Нашата разлика в очакваните реадмисии е завишена поради някаква неизмерена сериозност на здравето.

Бързо опресняване на причинно-следствените графики

Горната насочена графика кодира предположенията, които правим относно данните. Всеки възел представлява променлива или група от променливи. Ръб от A към B означава, че приемаме, че A причинява B. Двупосочен ръб означава, че просто приемаме корелация. Въпреки че е вярно, че Неизмерената тежест на здравето на човек причинява здравни индикатори в групатаИзмерени променливи, другата посока също е възможна. Например възрастта се съдържа в групата Измерени променливи и вероятно влияе върху сериозността на здравето. За целите на тази публикация връзката между тези две групи променливи не е от значение. Можехме също да приемем, че изобщо няма корелация (т.е. няма ръбове).

Зеленият ръб, преминаващ от Антидиабетни лекарства към Реадмисия, представлява причинно-следствения ефект, който бихме искали да измерим. За да идентифицираме този причинно-следствен ефект, трябва да неутрализираме така наречените объркващи фактори, тоест променливи, които причиняват както ADM (лечението), така и Readmission (резултатът).

И Неизмерената тежести Измерените променливи са объркващи. За да неутрализираме ефекта им, трябва да ги контролираме, което означава да ги включим като характеристики в нашия модел. Очевидно могат да бъдат включени само измерени объркващи фактори и така отклонението от неизмерена сериозност продължава.

Причинно-следствени ефекти и оператор Do

Определение. Нека Y_i и T_i обозначават променливата на резултата и бинарна променлива за лечение на i-тия човек и нека X_i обозначават неговите наблюдавани характеристики. В нашия работещ пример Y_i означава реадмисия в болница, а T_i представлява индикатора за ADM. Причинно-следственият ефект се определя като:

Операторът do представлява принуждаване на променливата за лечение да приеме стойност t.

За да измерим ефекта от ADM върху обратното приемане в болница, ние разглеждаме разликата в два потенциални резултата. Наблюдава се само един от тези два резултата; другото е това, което се нарича противоречиво. По отношение на графиките, операторът do прекъсва всички ръбове, влизащи в ADM възела, което става детерминистично (вижте графиката по-долу).

Как да направим това? Очевидно е, че не можем да се върнем назад във времето и да принудим хората да изберат различен вариант на лечение с надеждата да измерим съпоставителния им резултат от обратно приемане. Никога не сме в състояние директно да измерим τ_i. Тази невъзможност се нарича фундаментален проблем на причинно-следствените изводи. За наш късмет, според четирите допускания, изложени в началото, условният среден ефект на лечение (CATE):

може да се оцени като проста разлика в условните очаквания:

всеки път, когато X_i е така наречената валидна корекция подмножество от променливи.

Предположението за невежество

Предположението за игнориране гласи, че всички променливи (X_i), засягащи както лечението (T_i), така и резултата (Y_i), се наблюдават и могат да бъдат контролирани. Формално, трябва да намерим набор от променливи X_i, така че:

Това казва, че потенциалните резултати са независими от лечението, след като контролираме този специфичен набор от функции. Казано по друг начин, лечението няма друг ефект върху потенциалния резултат през някакъв обратен канал. Като се има предвид, че сериозността не се наблюдава, тя не може да бъде включена в X_i. Следователно игнорирането е нарушено и вероятно е налице пристрастие.

Нашият пример подчертава важността на конструирането на причинно-следствени графики. Те ни позволяват да видим ясно какви променливи се наблюдават или не и как ненаблюдавани променливи могат да доведат до отклонения в нашите оценки. Като цяло X_i трябва да съдържа всички променливи, които причиняват - пряко или косвено - лечението. Въпреки че би било изкушаващо да добавим всички наблюдавани характеристики, трябва да внимаваме да не включваме никакви „колайдъри“. Те всъщност биха въвели отклонение, когато се контролират.

Тук се чувстваме уверени, че нашата незабелязана строгост нарушава нашите предположения. Какви опции имаме тогава? Една от възможностите би била да се проучат други техники за причинно-следствени изводи, като например „оценки на инструментални променливи“ или използване на „променлива медиатор“ и „критерий за коригиране на входната врата“. За съжаление няма по-голяма вероятност тези алтернативи да работят, тъй като разчитат на много специфични конфигурации на графики.

Друга възможност е да се опитаме да оценим силата и правдоподобността на нашите пристрастия към сериозността на здравето. Това се прави чрез анализ на чувствителността, който се надяваме да представим в по-късна публикация в блога.

Предположението за позитивност

Предположението за положителност гарантира, че всяко наблюдение има строго положителен шанс да бъде в групата за лечение или контролната група.

Интуиция. Нарушаването на това предположение за индивиди, характеризиращи се с X_i, означава, че не можем да се надяваме да изградим някаква съвпадаща съпоставка за тях. Как бихте оценили ефекта от приема на ADM в субпопулация от хора с диабет, които никога не са били изложени на ADM? Освен това можем да проверим — като използваме теоремата на Bayes — че това гарантира, че E[Y_i|X_i, T_i] е добре дефинирано навсякъде; това от своя страна е от решаващо значение, за да може нашият CATE оценител да бъде добре дефиниран.

За разлика от игнорирането, положителността се оценява по-лесно благодарение на серия от тестове. Това е темата на следващия раздел.

Тестване на предположението за позитивност

Много от тестовете, които ще представим, са налични в IBM causallib notebook (вижте тази хартия за повече подробности). За да задвижим точката у дома, прилагаме тези тестове към данните от наблюденията.

Данни. Ние използваме документи за изписване от болница от хора, които са били приети в болница по някаква здравословна причина и които също са били диагностицирани с диабет; реприет (Y)е променливата, указваща повторното приемане на пациента. Променливата за лечение diabetesMed(T) е индикатор за предписание на ADM по време на техния болничен престой. Другите променливи са демографски данни (възраст, раса, пол), различни медицински характеристики, характеризиращи предоставените грижи (диагнози и получено лечение и т.н.), както и брой предишни хоспитализации.

Модел на склонност. Всички тестове за положителност разчитат на оценител на резултат на склонност P(diabetesMed_i | X_i). Нашият оценител е произволен горски модел, обучен на 80% от нашите данни; останалите 20% се използват за провеждане на тестовете. Прогнозите на модела се калибрират с помощта на „изотонична регресия“.

Този модел отбеляза AUC от … 1, което показва вероятно изтичане на нашите данни. За да потвърдим това, нека разгледаме лентовата диаграма на важността на функциите. Изключително важни функции са подозрителни, тъй като предвещават изтичане на нашите данни.

Не е изненадващо, че индикаторите за употребата на антидиабетни вещества или корекцията на лекарствата играят значителна роля в прогнозирането на нашия diabetesMedиндикатор.

Дори при липса на изтичане, високата относителна важност на характеристиките, концентрирана в няколко променливи, остава подозрителна. Това означава, че тези няколко функции играят решаваща роля при определянето кой получава ADM и кой не. В резултат на това е много вероятно тези характеристики да дефинират значителни области на хомогенно присвояване на обработката в пространството на характеристиките, което показва, че предположението за положителност е малко вероятно да се запази.

За да се справим с това очевидно изтичане и произтичащото от това нарушение на положителността, ние ще стартираме отново нашия модел, след като изключим всяка функция, свързана с антидиабетни вещества или корекция на лекарствата. Тъй като премахваме функции, ние разменяме възможността за спазване на предположението за игнориране за повишена вероятност за спазване на предположението за позитивност. Като изключваме функции, ние наистина губим потенциални функции, които бихме могли да включим като контроли, за да удовлетворим предположението за игнориране. Това е известно като компромис позитивност-игнориране.

Сега представяме три различни теста: първият проверява предположението за положителност, а другите два са по-скоро предназначени да оценят качеството на нашия модел на склонност. Наличието на точни прогнози за склонност е от първостепенно значение за обучението на последователни причинно-следствени модели, базирани на склонност.

Поддръжка на кумулативни функции за разпределение

Начертаваме кумулативната функция на разпределение на прогнозираната склонност върху данните от теста сред тези хора, на които е предписан ADM (лекувани, в оранжево) срещу тези, които не са (контрола, в синьо). За да бъде удовлетворено предположението за положителност, очакваме да не видим наблюдения нито при 0, нито при 1.

Виждаме обаче, че синият CDF започва от 0, а оранжевият CDF завършва на 1, като по този начин предполагаме, че предположението за положителност се нарушава за няколко наблюдения. Всеки път, когато това се случи, от съществено значение е да се проучат данните и да се разпитат експерти в областта, за да се провери за потенциални функции или комбинация от функции, които биха стимулирали използването или неизползването на ADM.

След като бъде идентифициран модел, изследователите са изправени пред избора или да премахнат тези движещи характеристики, или да филтрират несъответстващите наблюдения. В нашия случай, само с 339 (от над 20 000 наблюдения), попадащи извън [0,05, 0,95] прогнозирания диапазон на вероятност, комбинирани с много подробни данни, не успяхме да идентифицираме никакъв проницателен модел. В резултат на това и както е стандартно в литературата за оценка на склонността, премахнахме тези 339 наблюдения.

След като проверим валидността на предположението за положителност, имаме достъп до по-стабилни каузални оценители, които директно използват модела на склонност (така наречените каузални модели, базирани на склонност). Тези модели обаче разчитат на правилното калибриране на модела на склонност.

Оценяване на ефективността на претеглянето на обратната склонност

В основата си останалите два теста признават, че лекуваните и контролните групи се различават по други характеристики. За да стандартизират разпределението на функциите между групите, тези тестове претеглят отново данните, използвайки обратната прогнозирана склонност. С други думи, те претеглят всяка проба iпо:

За да бъдат добре дефинирани нашите тегла, от решаващо значение е да премахнем всяко наблюдение, чийто P(T_i|X_i) е твърде близо до 0 или 1. Това е основната причина, поради която премахнахме наблюдения, чийто резултат за склонност е извън диапазона [0,05, 0,95] .

Добрата старомодна ROC крива и нейните варианти

Наличието на добра ROC крива е желан резултат при всеки проблем с класификацията, но не и когато проверяваме предположението за положителност! За нашия модел на склонност това предполага наличието на джобове в пространството на функциите, които систематично получават предписан ADM, докато други джобове не. На ROC кривата това се превръща в скокове в истинския положителен процент за дадени постоянни фалшиви положителни проценти (вертикални сегменти в кривата) и обратно (хоризонтални сегменти).

Въпреки че този стандартен ROC ни помага да забележим възможно нарушение на предположението за положителност, можем допълнително да използваме тази крива, за да оценим ефективността на нашия модел за оценка на склонността. По-конкретно, можем да сравним тази стандартна ROC крива с очакван ROC, за да проверим дали прогнозираните вероятности от нашия модел са добре калибрирани.

За да разберем тази очаквана крива, първо имайте предвид, че никога няма да разберем истинската вероятност да получим ADM. И все пак, ако желаем да направим предположението, че прогнозите от модела на склонност са истинската вероятност да бъде лекуван, пациент със склонност p към получаване на ADM би се очаквало да бъде в истинската положителна група с вероятност p и в фалшивата отрицателна група с вероятност 1-р.

Криватаочаквана ROC прави това предположение и създава крива, която игнорира действителното присвояване на лечението и вместо това използва тези очаквани стойности. В резултат на това наблюденията с много висока или много ниска склонност имат почти същото тегло, както в стандартната ROC крива. Нерешителната склонност (около 0,5) допринася за сегмент по-близо до 45-градусовата линия.

В графиката по-долу стандартната и очакваната ROC криви се припокриват перфектно и имат AUC от 0,64. Това припокриване е добре дошло, тъй като показва, че нашите вероятности са добре калибрирани. Това беше допълнително потвърдено чрез начертаване на стандартна калибрационна крива и след повторно изчисляване на двете ROC криви без предварително калибриране на прогнозата (получихме AUC и очакваната AUC от 0,64 и 0,56, съответно).

Обърнете внимание също, че в двете криви няма вертикални или хоризонтални сегменти. Както беше обяснено по-горе, това е страхотна новина, тъй като ни дава още по-голяма увереност, че предположението за положителност е валидно.

Ако ADM беше предписан на случаен принцип - какъвто би бил случаят в клинично изпитване - щяхме да очакваме стандартната ROC крива да бъде близо до линията от 45 градуса (AUC от 0,5). Въпреки това, нашият модел запази известна дискриминационна сила, която можеше да бъде приписана на разликата между лекуваните и контролните групи. С други думи, хората, които са получили ADM, може да са били свръхпредставени или недостатъчно представени в някои региони на пространството на функциите.

След това моделът ще може да класифицира присвояването на ADM единствено въз основа на тези разлики в характеристиките. За да проверим дали случаят не е такъв, можем да балансираме отново нашия набор от данни, като използваме обратната склонност, както беше споменато в предишния раздел. Веднъж претеглени, третираната и контролната групи трябва да имат сходни характеристики, а претеглената ROCкрива трябва да е близо до линията от 45 градуса. Това потвърждава, че нашият модел на склонност работи по предназначение.

Сега въвеждаме един последен тест за сравняване на характеристиките между третираните и контролните групи.

Абсолютната стандартизирана средна разлика (SMD)

Определение. Тази мярка се състои в вземане на средната стойност на всяка характеристика в лекуваната и контролната група и разглеждане на тяхната абсолютна разлика. Тази разлика се нормализира чрез стандартното отклонение на всяка характеристика, изчислено от данните на двете групи заедно.

Всяка разлика, по-голяма от да кажем 0,1, ще се приема като доказателство, че функцията е разпределена по различен начин в групата ADM, отколкото в групата без ADM. В идеалния случай по-голямата част от тази разлика трябва да изчезне след претегляне на обратната склонност.

Графиката по-горе показва 30-те най-големи SMD (синьо-зелени точки) и техните противоположни претеглени противоположности (оранжеви точки). Само няколко точки са по-големи от нашия произволен, но стандартен праг от 0,1. Тези високи стойности не се обработват зле от претеглянето на обратната склонност - това би наложило по-нататъшно проучване на нашите данни или подобряване на нашия модел на склонност.

Човек може да се опита да изпълни различни модели с различни ограничения за регулиране или да изключи функции като променливитеA1C резултати, като същевременно има предвид пристрастието към позитивност-игнориране, споменато по-рано. Не забравяйте, че в началото на тази публикация подозирахме, че неизмерената сериозност на лошото здраве може да доведе до отклонение в нашите причинно-следствени оценки. Тестът A1C измерва процента на червените кръвни клетки на пациента, които имат покрит със захар хемоглобин. Това вероятно е заместител на неизмерената тежест на диабета. Да се ​​отървем от тази функция вероятно ще изостри нашето пристрастие.

Заключение

Тази публикация трябваше да ви убеди, че причинно-следствените изводи не са лесна задача! Това е особено вярно извън условията на рандомизирано контролирано изпитване, където изследователите са оставени да изучават данните от наблюденията. В тази обстановка двете ключови предположения — игнориране и позитивност — са силни, ако не и напълно нереалистични понякога.

Докато игнорирането е фундаментално непроверимо, ние показахме, че можем да оценим предположението за положителност, като проверим за нежелано присъствие на наблюдения близо до 0 или 1 в CDF на прогнозите за склонност. В допълнение, тези прогнози трябва да бъдат точни, тъй като те са градивният елемент на причинно-следствени модели, базирани на склонност.

За да оценим точността на тези прогнози, въведохме два допълнителни теста. Първият тест включва сравняване на три различни ROC криви: стандартна крива с очаквана и претеглена според склонността крива. Вторият тест изследва графиката SMD/Love със и преди и след претегляне на склонността. Неуспехът на който и да е от тези тестове може да бъде коригиран чрез някаква комбинация от знания за домейна, премахване на функции, филтриране на редове или изпробване на различни оценители на склонността.

Препратки

Shimoni, Y. et al. Инструментариум за оценка за насочване на избора на модел и дефинирането на кохорта в причинно-следствените изводи. Предпечат на https://arxiv.org/abs/1906.00442 (2019).

https://towardsdatascience.com/using-machine-learning-metrics-to-evaluate-causal-inference-models-d066f1bb2b7a