A/B тестване : Подход на Python (част 1)

Тази статия е за хора, които искат да научат как да прилагат A/B тестване. Ако искате да получите обобщение на A/B тестването, моля, проверете другата ми статия.

Преглед

Наборът от данни на Cookie Cats е от предизвикателство на Kaggle. Това е мобилна пъзел игра, в която плочките от един и същи цвят трябва да бъдат свързани, за да изчистите дъската и да спечелите нивото. След преминаване на различни нива има поставени врати, които обикновено са там, за да показват на потребителите реклами или действат като платена стена за закупуване на приложението.

проблем

Сега разглеждаме предизвикателството да поставим порти. Първоначално вратата беше поставена на ниво 30, но какво ще стане, ако поставим вратата на ниво 40. Има шансове потребителят да се интересува да играе повече, което е задържането да се увеличи за всеки играч и да увеличи трафика за мобилната игра, но да бъде достатъчно уверени, трябва да подкрепим нашите проценти на реализация с валидно обяснение или статистически анализ.

Извършваме A/B тестване, за да проверим дали поставянето на гейт на различно ниво води до повече задържане. Но първо започнете с проучвателен анализ на данни на набора от данни, за да получите представа какъв вид данни представляват и какво съдържат.

Разбор на данни и проучвателен анализ на данни

Наборът от данни съдържа 5 променливи. Нека да видим какво съдържа всяка променлива:

userid: Уникален номер, който идентифицира всеки играч.
версия: Дали играчът е бил поставен в контролната група (gate_30 — врата на ниво 30) или групата с преместена врата (gate_40 — врата на ниво 40).
sum_gamerounds: Броят рундове на играта, изиграни от играча през първите 14 дни след инсталирането.
retention_1: Ще се върне ли играчът и ще играе 1 ден след инсталирането?
retention_7: Ще се върне ли играчът и ще играе 7 дни след инсталирането?

Докато извършвате EDA, проверете за нулеви стойности, дубликати, всякакви неправилни данни и типа на данните.

От горните данни се вижда, че:

Стойностите в набора от данни нямат нулеви стойности.
UserID съдържа всички уникални идентификатори.
Променливата sum_gamerounds е цяло число, докато retention_1 и retention_7 са булеви променливи (1 или 0; True или False).
версията е категорична променлива.

Проверете за отклонения в числова променлива

Също така проверих дали sum_gamerounds би бил полезен при A/B тестването. И така, изчислих обобщена статистика за него.

Тази таблица ни казва:

sum_gamesplayed: Общият брой изиграни игри във всеки вариант.
Total_users: Общ брой потребители, които са играли игри.
Средният брой игри, изиграни от потребител във всеки вариант, който е почти еднакъв за експерименталната и контролната група.
Минималните и максималните стойности на игрите, които се играят от потребителя.

Основната цел на този анализ е да се разбере кога задържането на потребителите е по-голямо и за коя група има предвид поставения гейт. Но исках да проверя колко игри обикновено играе даден потребител.

Имаше хора, които не играха игри и броят им беше значителен, което може да не е добре за трафика.

По подобен начин начертах и задържането на ден 7.

Горната кръгова графика показва, че задържането на ден 1 е повече в сравнение с ден 7 както за контролната, така и за експерименталната група. Сега нека получим стойност, т.е. проценти на реализация за задържане в ден 1 и задържане в ден 7, тъй като графиката не показва задоволително изображение поради разликата, която е много по-малка.

Проценти на задържане за всеки вариант

Преди да проверите обменните курсове. Нека да разберем какъв е вариантът в A/B тестването?
Вариантът е промяна, която планираме да тестваме в сравнение с уебсайта по подразбиране и който се окаже по-добър, го стартираме.

В този случай ние тестваме на кое ниво на играта трябва да въведем портата, така че процентът на задържане да е по-висок, т.е. потребителят да играе играта отново.

Ден 1 задържане за контрола (Gate_30) и експерименталната група (Gate_40)

Ден 7 задържане за контрола (Gate_30) и групата за експеримент (Gate 40)

От горното задържане може да се види, че нивата на задържане са по-високи в контролната група. Също така процентът на задържане е много по-висок за ден 1 в сравнение с ден 7.

Когато разглеждаме извадка вместо популация, има голяма вероятност това да се случи случайно. За да сме сигурни, че това не се е случило случайно, извършваме проверка на хипотези.

Показатели

Единица за отклоняване е идентификатор на потребител, чрез който потребителят (експерименталните единици) се разделят произволно на две различни групи, т.е. контролна и експериментална. Уверете се, че потребителите са разпределени на случаен принцип към една и само една група.

Показател за оценка или променлива за отговор, избрана тук, е задържането на играч. Този показател се използва за измерване на въздействието на нашата промяна. Задържането е основно печалба от хора, които се връщат към вашия продукт, за да го използват.

Нашият интерес е да сравним средните стойности както на контролната, така и на експерименталната група. За това t-тестът на независима проба би бил подходящ избор. Бих говорил повече за това в по-късния раздел.

Формулиране на хипотеза

Нулева хипотеза: Тя гласи, че няма разлика между контролната и експерименталната група, което означава:

Степента на задържане е еднаква и в двете групи.
Няма статистически значим резултат.

Алтернативна хипотеза: Има разлика между контролната и експерименталната група, което означава:

Степента на задържане е различна в двете групи.
Дава статистически значим резултат

Размер на извадката

Анализ на мощността и ниво на значимост: След като вземем решение за показателите и хипотезата, трябва да проверим дали имаме достатъчно данни, за да проведем нашето A/B тестване. При изчисляване на размера на извадката трябва да се избягват тези грешки:

За да се избегнат грешки от тип I, трябва да се посочи нивото на значимост при изчисляването на размера на извадката.
За да избегнете грешки от тип II, размерът на извадката трябва да е достатъчно голям, за да постигнете това, задайте мощността на 0,8 или 0,9, ако е възможно, когато изчислявате размера на извадката.

За този проблем ние избираме доверителен интервал, т.е. 95%, който ни дава стойността на нивото на значимост на теста (алфа) = 0,05 и нивото на мощност на теста (1 — бета) = 80%. Можете да разгледате „Калкулаторът за размер на извадката на Евън Милър“, за да сме сигурни дали имаме достатъчно данни.

Следва:

Следващата статия ще бъде продължение на тази статия. Ще покрием T-тест с помощта на python на същото предизвикателство на Kaggle.

ЗАКЛЮЧЕНИЕ:

Описателният анализ играе важна роля в изследването на данни.

Докато избирате размер на извадката, експерименталните единици трябва да бъдат избрани на случаен принцип. Следователно, не дава непоследователен резултат.

Освен това продължителността играе ключова роля при изчисляването на размера на теста, защото ако спрем рано, няма да разполагаме с достатъчно данни, за да получим значителни резултати.