Ранее мы показали, что моделирование роста - история успеха бизнеса с причинным выводом - может превзойти более традиционные модели оттока. Как и в случае любого приложения причинно-следственного вывода, идентификация и оценка причинно-следственных связей опираются на важные предположения о данных. Отбросив эти предположения в сторону, удовлетворившись утверждением, что они верны всякий раз, когда лечебная переменная была полностью рандомизирована, теперь мы представим и исследуем два фундаментальных предположения: игнорирование и положительность .

Есть два других предположения - отсутствие помех и согласованность - которые мы не обсуждаем в этом посте. Чтобы узнать о них больше, мы отсылаем читателя к этому учебнику. С другой стороны, игнорирование и позитивность сильны и вряд ли будут соответствовать данным наблюдений.

А пока давайте рассмотрим сценарий, который представляет особый интерес как для медицинского страхования, так и для медицинских работников: измерение влияния приема антидиабетических препаратов на вероятность повторной госпитализации.

История предубеждений

Ежегодно тысячи американцев с диабетом попадают в больницу для получения помощи, которая может быть связана или не связана с их диабетом. Ради этих пациентов и для минимизации затрат системы здравоохранения США следует избегать повторной госпитализации. Это происходит, когда пациента помещают в больницу в течение 30 дней после выписки. Таким образом, важно узнать эффект потенциальных вмешательств. Одно из возможных вмешательств - это назначение любого типа антидиабетических препаратов (ADM) во время первоначального пребывания пациента в больнице.

Чтобы измерить этот эффект, мы могли бы собрать данные о выписке из больницы пациентов с диабетом и смоделировать повторную госпитализацию как разницу в среднем между двумя группами: одна группа с рецептом ADM, другая группа без него. Другими словами, мы бы оценили разницу в ожидаемых условных реадмиссиях:

К сожалению, это различие не указывает на причинный эффект! Действительно, подумайте о неизмеримой степени тяжести диабетического состояния или других проблем со здоровьем. Эта степень тяжести, вероятно, положительно коррелирует с вероятностью того, что пациенту был назначен ADM. Эта же пациентка с большей вероятностью столкнется с осложнениями после выписки, что повысит ее шансы на повторную госпитализацию. Вот и все - предвзятость . Наша разница в ожидаемых повторных госпитализациях завышена из-за некоторой неизмеримой серьезности проблем со здоровьем.

Краткое освежение причинно-следственных связей

Направленный график выше кодирует предположения, которые мы делаем в отношении данных. Каждый узел представляет собой переменную или группу переменных. Ребро от A до B означает, что мы предполагаем, что A вызывает B. Двунаправленный край означает, что мы просто предполагаем корреляцию. Хотя верно, что неизмеряемая серьезность здоровья человека вызывает индикаторы здоровья в группе измеряемые переменные, возможно и другое направление. Например, возраст содержится в группе Измеряемые переменные и, вероятно, влияет на серьезность состояния здоровья. Для целей этой публикации связь между этими двумя группами переменных не имеет значения. Мы также могли предположить, что корреляция вообще отсутствует (т. Е. Нет ребер).

Зеленый край, переходящий от Anti-Diabetic Meds к Readmission, представляет причинный эффект, который мы хотели бы измерить. Чтобы идентифицировать этот причинный эффект, нам необходимо нейтрализовать так называемые факторы, вызывающие искажение, то есть переменные, которые вызывают как ADM (лечение), так и реадмиссию (результат).

Неизмеряемая серьезность и Измеряемые переменные - оба противоречат друг другу. Чтобы нейтрализовать их влияние, нам нужно контролировать их, то есть включать их в нашу модель как функции. Очевидно, что могут быть включены только измеренные искажающие факторы, поэтому систематическая ошибка неизмеренной серьезности сохраняется.

Причинные эффекты и оператор Do

Определение. Пусть Y_i и T_i обозначают переменную результата и переменную бинарного лечения для i-го человека, а пусть X_i обозначает его наблюдаемые особенности. В нашем текущем примере Y_i означает повторную госпитализацию, а T_i представляет собой индикатор ADM. Причинно-следственный эффект определяется как:

Оператор do сводится к принуждению переменной обработки принимать значение t.

Чтобы измерить влияние ADM на повторную госпитализацию, мы смотрим на разницу в двух возможных исходах. Наблюдается только один из этих двух результатов; другой - то, что называется контрфактом. Что касается графов, оператор do отсекает все ребра, входящие в узел ADM, который становится детерминированным (см. График ниже).

Как мы это делаем? Очевидно, что мы не можем вернуться в прошлое и заставить людей выбирать другой вариант лечения в надежде измерить их контрфактический результат повторной госпитализации. Мы никогда не сможем напрямую измерить τ_i. Эта невозможность называется фундаментальной проблемой причинно-следственного вывода. К счастью для нас, при четырех предположениях, изложенных в начале, условный средний лечебный эффект (CATE):

можно оценить как простую разницу в условных ожиданиях:

всякий раз, когда X_i - это так называемое допустимое изменение подмножества переменных.

Предположение о незнании

Предположение о игнорировании утверждает, что все переменные (X_i), влияющие как на лечение (T_i), так и на результат (Y_i), наблюдаются и могут контролироваться. Формально нам нужно найти такой набор переменных X_i, что:

Это говорит о том, что потенциальные результаты не зависят от лечения, если мы контролируем этот конкретный набор функций. Иными словами, лечение не оказывает никакого другого влияния на потенциальный результат через какой-то обратный канал. Учитывая, что Серьезность не соблюдается, его нельзя включить в X_i. Таким образом, нарушается невежество и, вероятно, присутствует предвзятость.

Наш пример подчеркивает важность построения причинных графов. Они позволяют нам ясно видеть, какие переменные наблюдаются, а какие нет, и как ненаблюдаемые переменные могут приводить к ошибкам в наших оценках. Как правило, X_i должен содержать все переменные, которые прямо или косвенно вызывают лечение. Хотя было бы заманчиво добавить все наблюдаемые особенности под рукой, мы должны быть осторожны, чтобы не включать какие-либо коллайдеры. При контроле они фактически вносят предвзятость.

Здесь мы уверены, что наша ненаблюдаемая серьезность противоречит нашему предположению. Какие у нас есть варианты? Одна из возможностей заключается в изучении других методов причинного вывода, таких как оценка инструментальных переменных или использование переменной-посредника и критерия корректировки входной двери. К сожалению, эти альтернативы, скорее всего, не сработают, поскольку они полагаются на очень специфические конфигурации графа.

Другой вариант - попытаться оценить силу и правдоподобие нашей предвзятости по поводу серьезности состояния здоровья. Это делается с помощью анализа чувствительности, который мы надеемся представить в следующем сообщении в блоге.

Предположение о положительности

Предположение о положительности гарантирует, что каждое наблюдение имеет строго положительный шанс попасть в исследуемую или контрольную группу.

Интуиция. Нарушение этого предположения для людей, характеризуемых X_i, означает, что мы не можем надеяться построить для них какое-то совпадающее контрфактическое предположение. Как бы вы оценили эффект от приема ADM в подгруппе людей с диабетом, которые никогда не подвергались воздействию ADM? Кроме того, мы можем проверить - используя теорему Байеса - что это гарантирует, что E [Y_i | X_i, T_i] будет корректно определено везде; это, в свою очередь, очень важно для того, чтобы наша оценка CATE была четко определена.

В отличие от незнания, позитивность легче оценить благодаря серии тестов. Это тема следующего раздела.

Проверка предположения о положительности

Многие из представленных нами тестов доступны в ноутбуке causallib IBM (см. Этот документ для более подробной информации). Чтобы убедить нас в этом, мы применяем эти тесты к данным наблюдений.

Данные. Мы используем выписки из больницы людей, которые были госпитализированы по каким-либо причинам здоровья и которым также был поставлен диагноз диабета; повторно госпитализирован (Y) - это переменная, указывающая на повторную госпитализацию пациента. Переменная лечения diverMed (T) является индикатором назначения ADM во время их пребывания в больнице. Другими переменными являются демографические данные (возраст, раса, пол), различные медицинские характеристики, характеризующие предоставленную помощь (диагнозы, полученное лечение и т. Д.), А также количество предыдущих госпитализаций.

Модель предрасположенности. Все тесты на положительность основаны на оценке показателя предрасположенности P (DiabetesMed_i | X_i). Наша оценка - это случайная модель леса, обученная на 80% наших данных; оставшиеся 20% используются для проведения тестов. Прогнозы модели калибруются с помощью изотонической регрессии.

Эта модель получила AUC… 1, что указывает на вероятную утечку наших данных. Чтобы убедиться в этом, давайте посмотрим на гистограмму важности функции. Очень важные функции вызывают подозрение, поскольку они предвещают утечку наших данных.

Неудивительно, что индикаторы употребления антидиабетических веществ или корректировки приема лекарств играют важную роль в прогнозировании нашего индикатора DiabetesMed.

Даже при отсутствии утечки высокая относительная важность характеристик, сосредоточенная в нескольких переменных, остается подозрительной. Это означает, что эти несколько функций играют решающую роль в определении того, кто получит ADM, а кто нет. В результате, весьма вероятно, что эти особенности могут определять значительные области гомогенного назначения лечения в пространстве признаков, что указывает на то, что предположение о положительности вряд ли будет верным.

Чтобы устранить эту очевидную утечку и связанное с этим нарушение положительности, мы повторно запустим нашу модель, исключив любую функцию, относящуюся к антидиабетическим веществам или корректировке лекарств. По мере того, как мы удаляем функции, мы теряем возможность придерживаться предположения о игнорировании в пользу увеличения вероятности соблюдения предположения о положительности. Исключая функции, мы действительно теряем потенциальные возможности, которые мы могли бы добавить в качестве элементов управления, чтобы удовлетворить предположение о незнании. Это известно как компромисс положительности и игнорирования.

Теперь мы представляем три разных теста: первый проверяет предположение о положительности, а два других скорее предназначены для оценки качества нашей модели склонности. Наличие точных прогнозов предрасположенности имеет первостепенное значение для обучения последовательным причинным моделям, основанным на предрасположенности.

Поддержка кумулятивных функций распределения

Мы строим кумулятивную функцию распределения прогнозируемой склонности на данных теста среди тех людей, которым был назначен ADM (лечился, отмечен оранжевым), против тех, кто не принимал (контроль, синий). Чтобы предположение о положительности было выполнено, мы ожидаем, что не увидим никаких наблюдений ни при 0, ни при 1.

Однако мы видим, что синий CDF начинается с 0, а оранжевый CDF заканчивается на 1, тем самым предполагая, что предположение о положительности нарушается для некоторых наблюдений. Каждый раз, когда это происходит, важно изучить данные и опросить экспертов в предметной области, чтобы проверить потенциальные функции или комбинацию функций, которые будут стимулировать использование или неиспользование ADM.

После выявления закономерностей исследователи сталкиваются с выбором: либо удалить эти движущие элементы, либо отфильтровать несоответствующие наблюдения. В нашем случае, когда только 339 (из более чем 20 000 наблюдений) выходят за пределы прогнозируемого диапазона вероятности [0,05, 0,95], в сочетании с высокодетализированными данными, мы не смогли идентифицировать какой-либо проницательный образец. В результате, как это принято в литературе по оценке склонности, мы удалили эти 339 наблюдений.

После того, как мы проверили обоснованность предположения о положительности, у нас есть доступ к более надежным причинно-следственным оценкам, которые напрямую используют модель склонности (так называемые причинные модели, основанные на склонности). Однако эти модели полагаются на правильную калибровку модели склонности.

Оценка эффективности взвешивания обратной склонности

По сути, оставшиеся два теста признают, что экспериментальная и контрольная группы различаются по другим характеристикам. Чтобы стандартизировать распределение признаков по группам, эти тесты повторно взвешивают данные с использованием обратной предсказанной склонности. Другими словами, они взвешивают каждый образец i по:

Чтобы наши веса были правильно определены, крайне важно удалить все наблюдения, у которых P (T_i | X_i) слишком близко к 0 или 1. Это основная причина, по которой мы удалили наблюдения, оценка склонности которых выходила за пределы диапазона [0,05, 0,95]. .

Старая добрая кривая ROC и ее варианты

Хорошая кривая ROC - желательный результат в любой задаче классификации, но не тогда, когда мы проверяем предположение о положительности! Для нашей модели склонности это предполагает наличие карманов в пространстве признаков, которые систематически получали предписанный ADM, в то время как другие карманы не получали. На кривой ROC это выражается в скачках частоты истинных положительных результатов для заданных постоянных показателей ложноположительных результатов (вертикальные сегменты кривой) и наоборот (горизонтальные сегменты).

Хотя этот стандартный ROC помогает нам обнаружить возможное нарушение предположения о положительности, мы можем в дальнейшем использовать эту кривую для оценки эффективности нашей модели оценки склонности. В частности, мы можем сравнить эту стандартную кривую ROC с ожидаемой ROC, чтобы убедиться, что предсказанные вероятности нашей модели хорошо откалиброваны.

Чтобы понять эту ожидаемую кривую, сначала обратите внимание, что мы никогда не узнаем истинную вероятность получения ADM. Тем не менее, если мы готовы сделать предположение, что предсказания модели предрасположенности являются истинной вероятностью получения лечения, можно ожидать, что пациент с предрасположенностью p к получению ADM будет находиться в группе истинно положительных результатов с вероятностью p и в группе ложных результатов. отрицательная группа с вероятностью 1-п.

ожидаемая кривая ROC делает это предположение и создает кривую, которая игнорирует фактическое назначение лечения и вместо этого использует это ожидаемое значение. В результате наблюдения с очень высокой или очень низкой склонностью имеют почти такой же вес, как и на стандартной кривой ROC. Склонность к нерешительности (около 0,5) вносит сегмент ближе к линии под углом 45 градусов.

На приведенном ниже графике стандартные и ожидаемые кривые ROC полностью перекрываются и имеют AUC 0,64. Это совпадение приветствуется, поскольку оно указывает на то, что наши вероятности хорошо откалиброваны. Это было дополнительно подтверждено построением стандартной калибровочной кривой и повторным вычислением двух кривых ROC без предварительной калибровки прогноза (мы получили AUC и ожидаемую AUC 0,64 и 0,56 соответственно).

Также обратите внимание, что на двух кривых нет ни вертикальных, ни горизонтальных сегментов. Как объяснялось выше, это отличная новость, поскольку это дает нам еще больше уверенности в том, что предположение о положительности верно.

Если бы ADM был назначен случайным образом - как это было бы в случае клинического исследования - мы ожидали бы, что стандартная кривая ROC будет близка к линии под углом 45 градусов (AUC 0,5). Однако наша модель сохранила некоторую дискриминационную силу, которую можно отнести к разнице между экспериментальной и контрольной группами. Другими словами, люди, получившие ADM, могли быть перепредставлены или недопредставлены в некоторых регионах функционального пространства.

Тогда модель сможет классифицировать назначение ADM исключительно на основе этих различий в характеристиках. Чтобы убедиться, что это не так, мы можем перебалансировать наш набор данных, используя обратную склонность, как упоминалось в предыдущем разделе. После повторного взвешивания экспериментальная и контрольная группы должны иметь схожие характеристики, а взвешенная кривая ROC должна быть близка к линии под углом 45 градусов. Это подтверждает, что наша модель предрасположенности сработала так, как задумано.

Теперь мы представим последний тест для сравнения характеристик в экспериментальной и контрольной группах.

Абсолютная стандартизованная средняя разница (SMD)

Определение. Этот показатель состоит в том, чтобы взять среднее значение каждой характеристики в экспериментальной и контрольной группах и посмотреть на их абсолютную разницу. Эта разница нормализуется стандартным отклонением каждого признака, вычисленным на основе данных обеих групп вместе.

Любая разница, превышающая 0,1, будет считаться доказательством того, что функция распределена в группе ADM иначе, чем в группе, не относящейся к ADM. В идеале большая часть этой разницы должна исчезнуть после взвешивания обратной склонности.

На приведенном выше графике показаны 30 самых крупных SMD (бирюзовые точки) и их взвешенные аналоги с обратной склонностью (оранжевые точки). Только несколько точек превышают наш произвольный, но стандартный порог 0,1. Эти высокие значения плохо обрабатываются взвешиванием обратной склонности - это потребует дальнейшего изучения наших данных или улучшения нашей модели склонности.

Можно попробовать запустить разные модели с различными ограничениями регуляризации или исключить такие функции, как переменные A1C results, не забывая при этом о смещении положительности и игнорирования, о котором говорилось ранее. Помните, что в начале этого поста мы подозревали, что неизмеримая серьезность плохого состояния здоровья может привести к смещению наших причинно-следственных оценок. Тест A1C измеряет процент эритроцитов пациента, которые имеют гемоглобин, покрытый сахаром. Возможно, это показатель неизмеримой степени тяжести диабета. Избавление от этой функции, вероятно, усилит нашу предвзятость.

Заключение

Этот пост должен был убедить вас в том, что причинно-следственный вывод - непростая задача! Это особенно верно вне рамок рандомизированных контролируемых испытаний, когда исследователям предоставляется возможность изучать данные наблюдений. В этом контексте два важных предположения - игнорирование и положительность - сильны, а иногда и вовсе нереалистичны.

Хотя игнорирование принципиально не поддается проверке, мы показали, что можем оценить допущение о положительности, проверив нежелательное присутствие наблюдений около 0 или 1 в CDF предсказаний склонности. Кроме того, эти прогнозы должны быть точными, поскольку они являются строительным блоком причинно-следственных моделей, основанных на предрасположенности.

Чтобы оценить точность этих прогнозов, мы ввели два дополнительных теста. Первый тест включает сравнение трех различных кривых ROC: стандартной кривой с ожидаемой и кривой, взвешенной по склонности. Второй тест изучает график SMD / Love до и после взвешивания склонностей. Отказ любого из этих тестов может быть исправлен с помощью некоторой комбинации знаний предметной области, удаления функций, фильтрации строк или опробования различных оценщиков склонности.

использованная литература

Shimoni, Y. et al. Набор инструментов оценки для руководства выбором модели и определением когорты в причинно-следственных выводах. Препринт на https://arxiv.org/abs/1906.00442 (2019).

Https://towardsdatascience.com/using-machine-learning-metrics-to-evaluate-causal-inference-models-d066f1bb2b7a