Статистика — одна из тем, которая становится очень сложной в интервью по науке о данных. Если в вашем резюме есть несколько проектов, связанных с регрессией, вы обязательно выйдете на арену статистики. В бесчисленных интервью вопросы статистики становились причиной моего отказа от выбора.

Самое сложное в статистике то, что ее реализация в проектах носит естественный характер, поэтому становится трудно развить четкую интуицию, но тем не менее, если вы сможете охватить 5 основных вопросов/концепций, связанных со статистикой, вы сможете пройти через это. раздел в интервью.

Прежде чем перейти к подробностям вопросов, важно понять один факт о статистике.Статистика во многом связана с использованием вероятности для получения наилучших предположений. Зачем гадать, спросите вы? Потому что собрать статистику по населению практически невозможно. Самый наглядный пример — опросы общественного мнения во время выборов. Вас не удивляет, что опрос нескольких тысяч человек дает результаты, столь близкие к результатам миллионов избирателей? Сила статистики!

Вникаем в это -

Q1: Что такое центральная предельная теорема? А что такое нормальное распределение? Разница между нормальным распределением и стандартным нормальным распределением?

Ответ: Центральная предельная теорема является основой статистики вывода (предположения о населении с использованием выборки). В нем говорится, что если случайная выборка берется из совокупности n раз, то ее среднее значение будет следовать нормальному распределению. (Некоторые люди допускают ошибку, полагая, что если образцы взяты из одного и того же дистрибутива, их средние значения должны быть равны. Имейте в виду, что мы выбираем образцы случайным образом, поэтому этого не произойдет)

Нормальное распределение представляет собой распределение в форме колокола, означающее, что данные распределяются симметрично относительно центральных тенденций (среднее значение, медиана, мода).

Стандартное нормальное распределение — это особый случай, когда среднее значение = 0, стандартное отклонение = 1.

Дополнительный совет. Я упоминал, что концепция нормального распределения также используется при стандартизации переменных. Интуитивный способ думать состоит в том, что переменная теперь преобразуется таким образом, что каждая строка представляет, сколько стандартных отклонений точки данных от среднего.

В: Что такое t-тест и z-тест? Когда мы используем z-тест против t-теста?

Ответ: И t-тест, и z-тест являются частью проверки гипотез. Есть нулевая гипотеза (по умолчанию принятый факт) и альтернативная гипотеза, которую мы пытаемся доказать на выборочных данных. В частности, используя t-критерий, мы можем сравнить выборочные средние двух выборок.

Объясните это на практическом примере в интервью –

Например, Компания недавно внедрила систему рекомендаций (RS) на веб-сайте, и они хотят знать, оказало ли это какое-либо реальное положительное влияние на продажи. Мы определяем нулевую гипотезу, поскольку RS не влияет на продажи, и альтернативную гипотезу, поскольку RS оказывает положительное влияние на продажи. Получаем данные о продажах 20 случайных клиентов, которые используют старую систему на основе популярности и новую систему рекомендаций.

Выборка на основе популярности => x1 (среднее) = 800, SD1 = 100, n1 = 20

Рекомендация Образец двигателя => x2(среднее) = 900, SD2=200, n2=20

t = (900–800)/кв.м (200²/20 + 100²/20) = 100/50 = 2

степень свободы = (n1 + n2–2) = 38

Определите α = 0,05, уровень значимости

Используя (α, степень свободы), мы получаем критическое значение t из таблиц (в данном случае 1,68), и если вычисленное значение t больше критического значения t, мы отклоняем нулевую гипотезу и говорим RS оказывает положительное влияние. Но если t-значение меньше критического значения, то мы говорим, что текущая выборка не дает убедительных доказательств для отклонения нулевой гипотезы.

Z-тест используется вместо t-теста, когда соблюдаются два условия:

  1. У нас есть стандартное отклонение населения
  2. Размер выборки больше 30

Дополнительный совет —

Что произойдет с вычисленным t-значением, если мы уменьшим количество точек данных в выборке? В формуле уменьшите значения n1 и n2 и пересчитайте значение t.

Вопрос. Объясните значение p и его значение в контексте регрессии.

P-значение для определенного события представляет собой сумму вероятности данного события, одинаково редкого события и более редкого события.

В другом определении говорится, что это вероятность получения выборки такой же или более экстремальной, чем данная выборка. Я знаю, это может показаться запутанным. Подробнее читайте в этой статье.

В регрессии p-значение коэффициента определяет, является ли коэффициент статистически значимым. Мы проверяем гипотезу по каждому коэффициенту, где нулевая гипотеза состоит в том, что коэффициент равен 0. Теперь, если p-значение коэффициента ниже порога, мы отвергаем нулевую гипотезу и говорим, что коэффициент для переменной значим.

В: Что такое ANOVA? Где вы используете ANOVA?

ANOVA используется для сравнения средних, когда у нас есть более двух образцов. Это часть проверки гипотез.

Теперь математические детали процесса ANOVA несколько сложны и длинны, поэтому вы не можете ожидать вопросов по нему, но хорошо иметь представление о процессе. Если у вас есть время, прочтите об этом.

По сути, как и в случае t-значения, в ANOVA мы пытаемся отвергнуть нулевую гипотезу о том, что все средние значения выборки равны, вычисляя f-значение, которое простыми словами выглядит следующим образом:

F-значение = дисперсия между выборками/дисперсия в пределах выборки

Ознакомьтесь с интересной версией вопроса, связанного с ANOVA, который был задан в одном из моих интервью. Он может быть найден здесь".

Вопрос. Объясните, что такое критерий хи-квадрат и для чего он используется.

Тест хи-квадрат — это еще один тест проверки гипотез, который можно использовать для сравнения категориальных переменных.

Есть два основных варианта использования хи-квадрата.

  1. Чтобы определить качество соответствия (скажем, кто-то дает вам данные и просит вас проверить, исходят ли они из нормального распределения)
  2. Чтобы проверить независимость двух переменных

Попробуйте объяснить это на практическом примере, например:

Предположим, исследование утверждает, что отправка открыток клиентам в день их рождения увеличивает показатель удержания. Вы можете проверить это утверждение?

Вы разрабатываете эксперимент, в котором в течение определенной недели вы отправляете карточки одной группе клиентов, но не отправляете их другой группе клиентов. На следующей неделе вы проверите, сколько клиентов осталось из обеих групп. Допустим, ниже приведены данные

Нулевая гипотеза. Обе переменные независимы, то есть отправка открыток не влияет на уровень удержания клиента.

Альтернативная гипотеза — обе переменные не являются независимыми

Ожидаемые данные основаны на общей частоте строк и столбцов. Например, Ожидаемое (Полученные карты, Удержанные) = (Всего удержано X Общее количество полученных карт) / Общее количество клиентов

= (110 X 100)/200 = 55

Рассчитайте значение хи-квадрат, используя приведенную выше формулу:

X² = (60–55)²/55 + (50–55)²/55 + (40–45)²/45 + (50–45)²/45 = 2.02

степень свободы = (r-1)(c-1)

Используя (α, степень свободы), мы проверяем критическое значение X² по таблице и сравниваем его с рассчитанным значением X². Если вычисленное значение X² выше, мы можем отклонить нулевую гипотезу.

Надеюсь, вы получите пользу от этой статьи в своем интервью!