Мы слишком много раз слышали, что корреляция != причинно-следственная связь, но, похоже, никто не удосужился спросить, почему, услышав это. В человеческой природе мы склонны предполагать, что: только если А вызывает Б, тогда Б изменяется, когда изменяется А. Давайте посмотрим, почему это предположение неверно, на примере ниже: травля в школе.

Пример школьного буллинга

Студент X издевался над студентом Y.

Студент Y впал в депрессию.

Студент Y покончил жизнь самоубийством.

Мы описываем три события, показанные выше, как узлы A, B и C. Мы хотим построить график, чтобы проиллюстрировать качественную причинно-следственную связь. Качественное отношение в данном случае означает, что мы знаем, что:

Поведение, которое учащийся X издевался над учащимся Y, вызовет у учащегося Y депрессию. Но мы не знаем, сколько раз X запугивает Y, что приведет к депрессии. (Раз в неделю? o Раз в день? Каждый раз, когда они встречаются друг с другом?)

Опуская количественные отношения (обычно требуется больше данных, чтобы быть уверенным в количественных связях), мы можем сформировать некоторые гипотезы (рассказы) о данных и проверить их, обусловливая некоторые из них, и изучить их. причинно-следственная связь.

Причина, по которой мы это делаем (корректировка данных вместо проведения контролируемого эксперимента), в первую очередь связана с затратами. Иногда также невозможно провести масштабное расследование, где вы не контролируете некоторые факторы: возраст/физическое состояние/и т. д. Приходится жить с имеющимися данными.

Графическая модель и данные

Как мы видим на рисунке выше, если есть стрелка от узла A к узлу B, мы говорим, что A вызывает B (но поскольку это только качественно, мы не знаем уровень причинности). Если A указывает на B, а B указывает на C, мы также знаем, что A в некоторой степени вызывает C.

Предположим, что у нас есть подобный набор данных из исследовательского центра, занимающегося суицидальными попытками. Три столбца соответствуют трем предыдущим событиям.

Мы хотим ответить на этот вопрос:

Верен ли качественный график на основе полученных нами данных?

Обусловливание переменных имеет решающее значение

Данные обманчивы. Ознакомьтесь с приведенным ниже примером холестерина из книги профессора Джудеи Перл: CAUSAL INFERENCE IN STATISTICS: A PRIMER.

Когда мы обуславливаем разный возраст, данные подтверждают совершенно разные истории. И мы точно знаем, что физические упражнения приводят к снижению уровня холестерина. В других случаях причинно-следственная связь не столь очевидна.

Вернемся к нашему примеру с запугиванием: если мы обусловливаем событие B (уровень депрессии у учащихся), вызывает ли издевательство непосредственно суицидальные попытки? Вопреки интуиции, это неверно, если наш качественный график верен.

Обусловливая B, мы удаляем причинные эффекты от A к B и от B к C. Тогда только экзогенные переменные, которые по определению независимы друг от друга, влияют на A и C. Следовательно, A НЕ вызывает C напрямую.

Затем мы переходим к набору данных и группируем точки данных по w.r.t. уровень депрессии. Если правда, что переменная А (подвергнуться издевательствам или нет) не зависит от переменной С (совершить самоубийство или нет), мы заключаем, что наша история (качественный график) точна. Если сгруппированные данные противоречат нашему графику, мы знаем, что что-то не так с нашим структурно-причинным графиком. Следующий график может стать нашей новой историей,

Две альтернативные истории: представлены структурами конфаундера и коллайдера.

Экзогенные переменные опущены для ясности. Скажите, а какую историю мы тут пытаемся тестировать соответственно?

Мы будем использовать коллайдер, чтобы показать, почему корреляция НЕ приводит к причинно-следственной связи. На правом графике мы предполагаем, что событие A и событие B независимы друг от друга, поскольку между ними нет стрелок. И мы полагаем, что А непосредственно вызывает С, а В непосредственно вызывает С.

Предположим, мы обуславливаем событие C, то есть смотрим только на данные, в которых учащиеся не совершили самоубийство. В этом случае мы внезапно обнаружим, что А и В сильно коррелированы, чтобы событие С приводило к одному и тому же результату.

Например, есть несколько случаев, когда студенты не совершали самоубийства. Основываясь на наивном суждении, мы знаем, что если они одновременно находятся в депрессии и запугиваются, они, скорее всего, сломают острие. Скорее всего, в этой подгруппе «отсутствие суицидальных попыток» студенты либо подвергаются издевательствам, либо находятся в депрессии, чтобы справиться с ситуацией. (отрицательная корреляция!)

Таким образом, если мы в этом случае соберем данные только о событии А и событии В, мы увидим, что А и В имеют отрицательную корреляцию, но НЕ имеют причинно-следственной связи.

Ссылка:

http://bayes.cs.ucla.edu/jp_home.html