A / B-тестирование: подход Python (часть 1)

Эта статья предназначена для людей, которые хотят узнать, как реализовать A / B-тестирование. Если вы хотите получить обзор A / B-тестирования, ознакомьтесь, пожалуйста, с другой моей статьей.

Обзор

Набор данных Cookie Cats взят из испытания Kaggle. Это мобильная игра-головоломка, в которой необходимо соединить плитки одного цвета, чтобы очистить доску и выиграть уровень. После пересечения различных уровней появляются ворота, которые обычно служат для показа пользователям рекламы или действуют как платный доступ для покупки приложения.

Проблема

Теперь рассмотрим задачу размещения ворот. Первоначально ворота были размещены на уровне 30, но что, если мы разместим ворота на уровне 40. Есть вероятность, что пользователю может быть интересно играть больше, так как удержание может увеличиться для каждого игрока и увеличить трафик для мобильной игры, но будет достаточно уверенно, мы должны подкрепить наши коэффициенты конверсии достоверным объяснением или статистическим анализом.

Мы проводим A / B-тестирование, чтобы проверить, приводит ли размещение ворот на другом уровне к большему удержанию. Но сначала начните с исследовательского анализа данных набора данных, чтобы получить представление о том, что это за данные и что они содержат.

Обработка данных и исследовательский анализ данных

Набор данных содержит 5 переменных. Давайте посмотрим, что содержит каждая переменная:

ИД пользователя: уникальный номер, идентифицирующий каждого игрока.
версия: был ли игрок помещен в контрольную группу (gate_30 - ворота на уровне 30) или группу с перемещенными воротами (gate_40 - ворота на уровне 40).
sum_gamerounds: количество игровых раундов, сыгранных игроком в течение первых 14 дней после установки.
retention_1: Плеер вернется и поиграет через 1 день после установки?
retention_7: Плеер вернется и поиграет через 7 дней после установки?

При выполнении проверки EDA на наличие нулевых значений, дубликатов, любых неверных данных и типа данных.

Из приведенных выше данных видно, что:

Значения в наборе данных не имеют нулевых значений.
ИД пользователя содержит все уникальные идентификаторы.
Переменная sum_gamerounds - это целое число, а retention_1 и retention_7 - логические переменные (1 или 0; True или False).
версия - категориальная переменная.

Проверьте выбросы в числовой переменной

Я также проверил, пригодится ли sum_gamerounds в A / B-тестировании. Итак, я рассчитал для него сводную статистику.

Эта таблица дает нам:

sum_gamesplayed: общее количество сыгранных игр в каждом варианте.
Total_users: общее количество пользователей, которые играли в игры.
Среднее количество игр, в которые играет пользователь в каждом варианте, примерно одинаково для экспериментальной и контрольной групп.
Минимальное и максимальное значения игр, в которые играет пользователь.

Основная цель этого анализа - понять, когда удержание пользователей больше и для какой группы рассматривается размещение ворот. Но я хотел проверить, во сколько игр обычно играет пользователь.

Были люди, которые не играли в игру, и их количество было значительным, что могло плохо сказаться на трафике.

Точно так же я построил график удержания на 7-й день.

Приведенная выше круговая диаграмма показывает, что удерживание в день 1 больше по сравнению с днем 7 как для контрольной, так и для экспериментальной группы. Теперь давайте получим значение, то есть коэффициенты конверсии для удержания на 1-й и 7-й день, потому что график не показывает удовлетворительное изображение из-за разницы, которая очень меньше.

Уровень удержания для каждого варианта

Перед проверкой курсов конвертации. Давайте разберемся, какой вариант находится в A / B-тестировании?
Вариант - это изменение, которое мы планируем протестировать, сравнивая его с веб-сайтом по умолчанию, и в зависимости от того, какой вариант окажется лучше, мы его запускаем.

В этом случае мы проверяем, на каком уровне игры мы должны ввести гейт, чтобы коэффициент удержания был выше, то есть пользователь снова играет в игру.

Удержание в день 1 для контрольной (Gate_30) и экспериментальной группы (Gate_40)

День 7, удержание для контроля (выход 30) и экспериментальной группы (выход 40)

Из приведенного выше удерживания можно видеть, что показатели удержания выше в контрольной группе. Кроме того, уровень удержания намного выше в день 1 по сравнению с днем 7.

Когда мы рассматриваем выборку, а не генеральную совокупность, высока вероятность того, что это произойдет случайно. Чтобы убедиться, что это не случайно, мы проводим проверку гипотез.

Показатели

Единица отклонения - это идентификатор пользователя, с помощью которого пользователь (экспериментальные единицы) случайным образом разделяется на две разные группы, то есть контрольную и экспериментальную. Убедитесь, что пользователи случайным образом попадают в одну и только одну группу.

Показатель оценки или выбранная здесь переменная ответа - это удержание игрока. Этот показатель используется для измерения воздействия наших изменений. Удержание - это в основном люди, которые возвращаются к вашему продукту, чтобы получить от него прибыль.

Наш интерес заключается в сравнении средних значений как контрольной, так и экспериментальной группы. Для этого подходящим выбором будет независимый выборочный t-критерий. Я расскажу об этом подробнее в следующем разделе.

Формулировка гипотезы

Нулевая гипотеза: она утверждает, что нет никакой разницы между контрольной и экспериментальной группами, что означает:

Показатели удержания одинаковы в обеих группах.
Нет статистически значимого результата.

Альтернативная гипотеза: существует разница между контрольной и экспериментальной группами, что означает:

Показатели удержания различаются в обеих группах.
Это дает статистически значимый результат

Размер образца

Анализ мощности и уровень значимости: после определения показателей и гипотезы мы должны проверить, достаточно ли у нас данных для проведения A / B-тестирования. При расчете размера выборки следует избегать следующих ошибок:

Чтобы избежать ошибок типа I, при расчете размера выборки необходимо указывать уровень значимости.
Чтобы избежать ошибок типа II, размер выборки должен быть достаточно большим, для этого установите мощность 0,8 или 0,9, если возможно, при расчете размера вашей выборки.

Для этой задачи мы выбираем доверительный интервал, т.е. 95%, который дает нам значение уровня значимости теста (альфа) = 0,05 и уровня мощности теста (1 - бета) = 80%. Вы можете посмотреть на Калькулятор размера выборки Эвана Миллера, чтобы быть уверенным в погоде, у нас достаточно данных.

Следующая статья будет продолжением этой статьи. Мы рассмотрим T-тест с использованием Python в том же задании Kaggle.

ВЫВОД:

Описательный анализ играет важную роль в исследовании данных.

При выборе размера выборки единицы эксперимента следует выбирать случайным образом. Следовательно, не давая противоречивого результата.

Кроме того, продолжительность играет ключевую роль при вычислении размера теста, потому что, если его остановить раньше, у нас не будет достаточно данных для получения значимых результатов.