Этот пост охватывает концепцию случайных величин, функции вероятностной массы и некоторые распространенные дискретные распределения вероятностей, которые вы должны знать как специалист по данным.

1. Что такое случайная величина?

При проведении вероятностного эксперимента нас часто интересуют не все детали экспериментальных результатов, а значение некоторой числовой величины, определяемой результатом.

Случайные переменные – это функции с действительными значениями, определенные в пространстве выборки, которые отображают результаты эксперимента в вещественное число. Область определения случайной величины — это выборочное пространство (S), а диапазон — действительные числа (ℝ). Случайные переменные помогают количественно оценить результаты эксперимента.

Существует два типа случайных величин:

  • Дискретная случайная величина
  • Непрерывная случайная величина

Дискретная случайная величина (обычно связанная со счетом) принимает значения, представляющие собой дискретные точки на прямой с действительными числами, а непрерывная случайная величина (обычно связанная с измерением) принимает значения которые образуют интервал вдоль действительной числовой прямой.

Когда дискретная случайная величина сильно растет и принимает большой диапазон значений, мы склонны смещать наше внимание на интервалы значений вместо того, чтобы отслеживать отдельные значения. Моделируя дискретную случайную величину как непрерывную случайную величину, мы теряем некоторую точность, но это упрощает расчет вероятности.

2. Функция массы вероятности

Давайте рассмотрим случайный эксперимент с двойным подбрасыванием монеты, и пусть наша случайная величина X = количеству орлов.

Поскольку случайные величины получены из результатов, мы можем присвоить им значения вероятности. Функция массывероятности(PMF) — это функция, которая присваивает значение вероятности дискретным случайным переменным.

Графически представляя вышеприведенное распределение вероятностей, мы наблюдаем, что когда честная монета подбрасывается дважды, шанс выпадения одного орла вдвое превышает шанс выпадения нуля или двух орлов.

Функция кумулятивного распределения —CDF вычисляет кумулятивную вероятность для заданного значения x. Проще говоря, CDF — это функция, которая накапливает значения вероятности.

CDF является неубывающей и ступенчатой ​​функцией для дискретных случайных величин. Он не дает представления о распределении, а только говорит о том, как увеличивается вероятность.

Для непрерывных переменных мы используем PDF (функция плотности вероятности), которая дает плотность вероятности, а не значение вероятности, в отличие от PMF.

3. Общие дискретные распределения вероятностей

Существует множество дискретных распределений вероятностей, но мы обсудим наиболее распространенные дискретные распределения и их применение в реальных условиях.

  • Равномерное распределение
  • Распределение Бернулли
  • Биномиальное распределение
  • Распределение Пуассона
  • Геометрическое распределение
  • Гипергеометрическое распределение
  1. Равномерное распределение

При равномерном распределении все исходы равновероятны (вероятность получения каждого исхода одинакова).

Один раз подбросить монету и один раз бросить игральную кость — вот некоторые примеры равномерного распределения.

2. Распределение Бернулли

Распределение Бернулли - это частный случай биномиального распределения, когда проводится одно испытание (n = 1).

Подбрасывание монеты — Униформа или Бернулли?

Распределение Бернулли говорит только о двух возможных исходах, возможно, с разными вероятностями, тогда как равномерное распределение допускает множество исходов. Подбрасывание монеты один раз — это событие Бернулли с равномерным распределением.

3. Биномиальное распределение

Биномиальная случайная величина представляет собой количество успехов или неудач в n независимых испытаниях Бернулли.

Предположения -

  • Количество попыток (n) фиксировано
  • Каждое испытание является независимым
  • Каждое испытание является испытанием Бернулли (только два возможных исхода в каждом испытании).
  • Вероятность успеха постоянна для каждого испытания (каждое испытание одинаково распределено)

Из приведенного ниже биномиального распределения видно, что по мере увеличения вероятности успеха глыба распределения смещается вправо.

Рассмотрим эксперимент по подбрасыванию правильной монеты 300 раз. Мы можем смоделировать эту ситуацию как биномиальное распределение, но расчет вероятности будет довольно болезненным. Как обсуждалось ранее, когда дискретная случайная величина сильно возрастает или принимает большой диапазон значений, мы можем смоделировать ее как непрерывную случайную величину. Следовательно, для p = 0,5 и больших n мы можем моделировать биномиальное распределение как нормальное распределение (называемое нормальным приближением к биномиальному).

Вы можете попробовать некоторые удивительные модели биномиального распределения на Geogebra — https://www.geogebra.org/t/binomial-distribution

4. Распределение Пуассона

Случайная величина Пуассона описывает количество событий, происходящих в фиксированный интервал времени (также называемый областью возможности).

Предположения-

  • Скорость, с которой происходят события, постоянна
  • События независимы (наступление одного события не влияет на наступление последующего события)

События, происходящие в течение определенного периода времени, могут быть смоделированы как пуассоновская случайная величина, например — прибытие человека в очередь прилавка бронирования, прибытие посетителей на веб-сайт, попадание метеоритов в атмосферу Земли и т. д.

Можем ли мы смоделировать количество отметок "Нравится" в вашем посте в Instagram в час как распределение Пуассона?

Распределение Пуассона предполагает, что ни один интервал не может иметь более вероятное событие, чем любой другой интервал того же размера, что означает, что скорость, с которой происходят события, должна оставаться постоянной. Лайки на ваш пост в Instagram с меньшей вероятностью приходят во время сна, поэтому на самом деле это не будет распределением Пуассона, но часто полезно использовать эти распределения и теоретически моделировать вашу ситуацию.

5. Геометрическое распределение

Геометрическое распределение — это распределение количества испытаний, необходимых для получения первого успеха в повторных испытаниях Бернулли. Он говорит о вероятности того, что первый успех будет на n-м испытании.

Примеры. Из прошлых выступлений вы знаете, что всякий раз, когда Роналду пинает мяч в сторону стойки ворот, вероятность того, что он забьет гол, составляет 80%. Моделируя эту ситуацию в виде геометрического распределения, мы находим, что вероятность забить гол в его первой попытке равна 0,8, во второй - 0,159, а в третьей - 0,03. Это означает, что вероятность того, что Роналду забьет гол не более чем в трех попытках, составляет 98,9%.

6. Гипергеометрическое распределение

Гипергеометрическое распределение — это дискретное распределение вероятностей, которое описывает вероятность k успехов в n розыгрышах без замены из конечной популяции размера N. Рассмотрим гипергеометрический эксперимент по случайному выбору n шаров без замены из ящика, содержащего N шаров, из которых m красный и N—m — синий.

Пусть X обозначает количество выбранных красных шаров, тогда

Спасибо за чтение, и я надеюсь, вам понравился этот пост. Если вам нравится моя работа, вы можете подписаться на меня, и если вы обнаружите какие-либо ошибки, сообщите мне об этом в комментариях.

Счастливого обучения!