Случайный причинный вывод

Чего ожидать от бизнес-проекта причинно-следственного вывода: руководство для руководителей I

Часть I. Когда вам нужен случайный вывод?

Это пятая публикация из серии о причинно-следственных связях и науке о данных. Предыдущий был Решение парадокса Симпсона. Вторую часть этого поста вы найдете здесь.

Причинный вывод - это новый язык для моделирования причинно-следственной связи, помогающий лучше понять причины и следствия, чтобы мы могли принимать более обоснованные решения. Здесь мы объясним, как это может помочь компании или организации получить представление о своих данных. Этот пост написан для тех, кто работает в компании, основанной на данных, не обязательно для технического персонала, кто хочет понять, какие моменты являются ключевыми в проекте причинно-следственного вывода.

Примечание. Существуют две схемы причинно-следственного вывода: потенциальные результаты и подход DAG (направленный ациклический график). Хотя оба они математически эквивалентны, мы сосредоточимся на том, который основан на графиках (DAG).

Когда мне нужен причинно-следственный вывод?

Представьте, что ваша компания разработала новый веб-сайт. Он развернут, и вы задаетесь вопросом, имеет ли он положительное влияние или нет. Для этого вы измеряете количество пользователей и сравниваете старые и новые веб-страницы, получая этот график:

Теперь вы спрашиваете, удалась ли новая веб-страница? Видимо, у вас есть хорошие результаты, но если хорошенько подумать, вы увидите, что не все так однозначно. Есть несколько возможных объяснений: в этом месяце традиционно больше активности, ваши конкуренты сделали что-то не так, некоторые условия в вашем контексте изменились ... На самом деле, существует бесконечное количество возможных причин.

Как мы с этим справляемся? Проведение A / B-теста. Перед развертыванием веб-сайта вы случайным образом разделяете пользователей на две группы, присваивая им одну из двух версий. Кто-то войдет в новый, а кто-то в старый. Дело в том, что все они находятся под влиянием одного и того же контекста, что обеспечивает сопоставимость сравнения между ними.

Однако A / B-тесты не всегда возможны. Бывают ситуации, когда это слишком дорого, неэтично (представьте, что вы хотели узнать, вызывает ли курение рак у детей) или это невыполнимо (ваши конкуренты выпустили новый продукт - вы не можете попросить их провести для вас A / B-тест. измерить его влияние на ваш продукт!). Тем не менее, у вас, вероятно, есть некоторые исторические данные, которые, по вашему мнению, могут вам чем-то помочь. Что ж ... тогда вам нужен причинный вывод! Вы могли подумать, что так бывает в большинстве случаев ?! Ответ - да, в большинстве случаев.

У меня есть данные, и их интерпретация кажется довольно простой, я не вижу проблемы!

Существует огромная разница между данными, полученными экспериментально (с тестом A / B) и данными наблюдений (без теста A / B). Посмотрите следующий пример из статьи Может ли каждая группа быть хуже среднего? Да », где, анализируя динамику заработной платы за период 2000–2013 гг., Получаем следующий результат.

Медианное изменение реальной недельной заработной платы, 2000–2013 гг.

Итого: + 0,9%
Отсев из средней школы: -7,9%
Выпускники средней школы, без колледжа: -4,7%
Некоторые колледжи: -7,6%
Степень бакалавра или выше : -1,2%

У вас глобальный рост (+ 0,9%) , а в каждой подгруппе зарплаты снижаются. Какие?! Представьте, что вам нужно принять решение в этом сценарии: дела идут лучше или хуже? Это нетривиальный ответ. Это может показаться ошибкой расчета, но на самом деле это не так. Когда сумма и ее подгруппы имеют противоположные направления, мы называем это парадоксом Симпсона. Если вы хотите получить более подробный пример, взгляните на случай с камнями в почках в Решении парадокса Симпсона. Опять же, одни и те же исходные данные одновременно подтверждают два совершенно противоположных вывода!

Парадокс Симпсона случается только с данными наблюдений, и это просто особая проблема, с которой вы можете столкнуться при анализе данных наблюдений. Хотя это кажется редкостью, это случается чаще, чем вы думаете. В общем, вы должны знать о множестве различных предубеждений, которые вы можете привнести в свой анализ: существует огромное их разнообразие!

Вывод состоит в том, что работа с данными наблюдений может быть действительно сложной задачей и легко может привести к неправильным выводам.

Давайте посмотрим на пример

Представьте, что вы работаете в газете CausalNews. Чтобы охватить более широкую аудиторию, вы используете две разные платформы социальных сетей для публикации новостей: Media4You и MediaForU. Поскольку вы тратите на них много денег, вы хотите знать, какой из них более эффективен для вашей компании.

Ваши данные могут выглядеть так

Теперь MediaForU дает вам (10 + 5 + 1) / 3 = 5,3 тыс. Посетителей на одну новость, а Media4You дает только 3 тыс. Посетителей. Вот и все, MediaForU лучше!

Что ж ... как вы могли догадаться, все не так просто. У вас есть два разных типа новостей: культура и спорт.

Обычно у спорта больше читателей, чем у культуры. Media4You получили только новости культуры, что является менее популярной темой, поэтому сравнение проводилось не при тех же обстоятельствах. На самом деле Media4You лучше работал в разделе культуры. Мы можем описать ситуацию следующим графиком.

По разным причинам вы попробовали обе платформы по-разному (политика распространения). Таким образом, от того, какой теме принадлежит новость, зависит, какая платформа будет использоваться. В то же время сама тема имеет разные типы читателей, и обе платформы могут иметь разный уровень производительности.

В нашем прямом расчете (5,3 тыс. Против 3 тыс.) Мы смешивали два эффекта: эффективность темы и эффективность платформы. Если мы хотим измерить эффективность платформы, тема действует как сбивающий с толку, потому что тема влияет на обе стороны одновременно. Мы не уверены, видим ли мы эффективность платформы или эффективность темы.

В настоящий момент мы, естественно, хотели бы оценить:

  • Эффективность платформы: если бы обе платформы получили одинаковое распределение тем, какая из них создала бы больше посещений?
  • Эффективность темы: каков внутренний интерес читателей к каждой теме, независимо от нашей маркетинговой политики?

Это суммирует, чтобы оценить причинные эффекты, представленные на диаграмме их относительными стрелками. В следующем посте мы более подробно опишем, как причинно-следственный вывод становится методологией для оценки этих эффектов шаг за шагом, с явным указанием допущений и рисков, которые мы принимаем в нашем анализе.

Вы можете продолжить чтение здесь.

Благодарности:

Я хотел бы поблагодарить Николь Томпсон за все советы, которые она давала мне во время совместной работы о том, как легче передавать сложные идеи. Спасибо, Николь!

Использованная литература: