Понимание распределения вероятности

Что такое вероятностное распределение? Какие существуют типы вероятностных распределений? Как это поможет в разработке решений для науки о данных?

Позвольте мне попытаться объяснить это очень простыми словами

Определение: - Распределение вероятностей - это математическая функция, которая дает вероятности возникновения различных возможных результатов эксперимента.

Бросок кубика дает мне набор результатов, распределенных определенным образом, где, поскольку оценки определенного предмета класса дают мне другое распределение, и количество автомобильных аварий в конкретном году следует совершенно другому распределению и так далее. Различные распределения помогают нам узнать больше о данных и их характеристиках. Это помогает понять, каким будет возможный результат, если он будет следовать определенному распределению.

Распределение вероятностей в целом подразделяется на два дискретных распределения вероятностей и непрерывных распределений вероятностей.

Дискретные распределения вероятностей

Когда вы подбрасываете монету, у вас будет либо решка, либо решка. Результат будет дискретным. У вас не может быть никакой ценности между ними. Здесь счетчики событий являются дискретными функциями. То же самое и с броском кубика. Вероятность выпадения определенного числа дискретна. Ваш результат будет 1,2,3,4,5 или 6. Дискретный, как следует из названия, имеет границу, в отличие от непрерывной. Когда вы бросаете кости, это может быть один или два, это не будет 1,5 или 1,22345. Каждый возможный результат в дискретном распределении вероятностей имеет вероятность наступления. Биномиальное распределение, распределение Пуассона, равномерное распределение и т. Д. Являются примерами распределений дискретной вероятности.

Непрерывное распределение вероятностей.

В случае измерения роста или веса класса наблюдаемые нами значения или результаты не будут дискретным числом. Это могут быть непрерывные значения. Вес человека может быть 48,050, а другого - 46,063. Его можно рассчитать с точностью до десятичных знаков, исходя из шкалы машины, используемой для измерения. Непрерывные функции вероятности также известны как функции плотности вероятности. Сумма вероятностей в непрерывной функции вероятности остается равной единице. Однако мы не можем подтвердить, что каждое возможное значение / результат будет иметь ненулевое правдоподобие. В функции непрерывной вероятности мы вычисляем вероятность появления между двумя значениями или точками. Площадь под кривой для вероятностного графика непрерывного распределения вероятностей равна единице. Нормальное распределение, распределение Вейбулла, логарифмическое нормальное распределение являются примерами непрерывного распределения вероятностей.

Теперь давайте подробнее рассмотрим дистрибутивы.

Равномерное распространение

Равномерное распределение - это распределение, в котором все результаты (между максимальным и минимальным значением) имеют одинаковую вероятность. Равномерное распределение может быть непрерывным равномерным распределением и дискретным равномерным распределением.

Непрерывное равномерное распределение

Непрерывное равномерное распределение, также называемое прямоугольным распределением, описывает эксперимент, в котором есть произвольный результат, лежащий между определенными границами, a и b, которые являются минимальным и максимальным значениями.

Вы вошли в квартиру и собираетесь подняться на лифте на свой этаж. Вы звоните, и лифт добирается до вас от 0 до 40 секунд после того, как вы нажмете кнопку. Это классический пример непрерывного равномерного распределения с минимальным нулевым значением и максимальным значением 40 секунд.

Функция плотности вероятности непрерывного равномерного распределения равна

Ожидаемая стоимость непрерывного равномерного распределения составляет

Дисперсия непрерывного равномерного распределения равна

В приведенной выше задаче E (X) = 1/2 * (40) = 20 с и V (X) = 1/12 * (40) ² = 400/3.

Дискретное равномерное распределение.

Дискретное равномерное распределение - это симметричное распределение вероятностей, в котором с равной вероятностью может наблюдаться конечное число значений; каждое из n значений имеет равную вероятность 1 / n

Изображение сердца, дубинки, ромба или лопаты из колоды карт - это пример дискретного равномерного распределения.

Функция плотности вероятности дискретного равномерного распределения равна

Ожидаемое значение дискретного равномерного распределения составляет

Дисперсия дискретного равномерного распределения равна

В приведенной выше задаче E (X) = (1 + 6) / 2 = 3,5 и

V(X) = ((6–1+1)²-1)/12=35/12=2.9

Распределение Бернулли

Распределение Бернулли - это дискретное распределение вероятностей случайной величины, которое принимает двоичный выходной сигнал: 1 с вероятностью p и 0 с вероятностью (1-p). Несколько примеров распределения Бернулли: когда вы подбрасываете монету, вы получаете либо орел, либо решку, если вы связываете получение орла с выигрышем или успехом, а получение решки с проигрышем, то это распределение Бернулли. То же самое с успехом или неудачей, полом мужского или женского пола, сдачей или неудачей экзамена и т. Д.

Представьте, что выпадение головы при подбрасывании справедливой монеты считается успехом, тогда голова приравнивается к 1, а хвост приравнивается к 0. Вероятность получить голову - 1/2. Вероятность успеха -

Ожидаемое значение случайной величины Бернулли равно

Дисперсия распределения Бернулли X равна

Распределение Бернулли - это когда мы проводим эксперимент только один раз, например, один раз подбрасываем монету или один раз бросаем кубик. Так что, если эксперименты повторяются несколько раз? Распределение для этого - биномиальное распределение. Распределение Бернулли - это частный случай биномиального распределения, когда проводится одно испытание (поэтому n будет равно 1 для такого биномиального распределения).

Биномиальное распределение

Биномиальное распределение используется, когда есть ровно два взаимоисключающих результата испытания, например, орел или решка при подбрасывании монеты, дождь или его отсутствие завтра, выигрыш или поражение в матче. Эти результаты соответственно обозначаются как «успех» и «неудача». Биномиальное распределение используется для получения вероятности наблюдения x успехов в N испытаниях, при этом вероятность успеха в одном испытании обозначается p . Биномиальное распределение предполагает, что p фиксировано для всех испытаний.

Вероятность получить ровно x успехов в n независимых испытаниях Бернулли дается функцией массы вероятности:

Предположим, мы подбрасываем монету 6 раз, если вероятность выпадения орла считается успехом, а вероятность выпадения решки - неудачей. Каждое испытание имеет вероятность успеха 1/2. Какова будет вероятность выпадения орла в 4 раза.

Каждое испытание - это испытание Бернулли, и вероятность его совершения равна p.

Получение 4 решек при подбрасывании монеты 6 раз - это 6c4. Что равно 15, а вероятность успеха - 1/64. Р (Х = 4) = 15/64

Если X ~ B (n, p), то есть X случайная величина с биномиальным распределением, где n - общее количество экспериментов, а p - вероятность того, что каждый эксперимент даст успешный результат, тогда ожидаемое значение X равно:

Дисперсия биномиального распределения равна

Распределение Пуассона

Теперь мы знаем, как работает двоичное распределение. Представьте себе случай, когда количество событий близко к бесконечности или очень-очень большое количество, а также вероятность события очень-очень низкая или близка к нулю, например, количество электронных писем, которые вы получаете в год, количество заявлений о несчастных случаях, которые страхование компания получает и т. д. В приведенных выше случаях у вас может не быть точных значений «n» и «p», но вы знаете, что n близко к бесконечности, а p близко к нулю. В таких случаях мы используем распределение Пуассона. В распределении Пуассона мы рассматриваем параметр λ.

Пуассоновский процесс - это модель серии дискретных событий, в которой известно среднее время между событиями, но точное время событий является случайным. Прибытие события не зависит от предшествующего события.

Распределение Пуассона - это распределение, которое выражает вероятность того, что заданное количество событий произойдет в фиксированный интервал времени или пространства, если эти события происходят с известной постоянной средней скоростью и независимо от времени, прошедшего с последнего события.

Когда λ становится больше, график больше похож на нормальное распределение.

Говорят, что дискретная случайная величина X имеет распределение Пуассона с параметром λ ›0, если для k = 0, 1, 2,… , функция массы вероятности X определяется выражением

Распределение Пуассона может применяться к системам с большим количеством возможных событий, каждое из которых является редким.

Положительное действительное число λ равно ожидаемому значению X, а также его дисперсии.

Нормальное распределение

Нормальное распределение - это наиболее распространенное распределение, которое мы видим в нашей повседневной жизни. Вокруг нас есть множество примеров этого распределения, которое иначе называют кривой Белла, например, распределение роста учащихся по звонкам, артериального давления, ошибок измерения и показателей IQ.

Функция плотности вероятности нормального распределения имеет вид

Параметр μ - это среднее или математическое ожидание распределения (а также его медиана и мода), а параметр σ - его стандартное отклонение. Дисперсия распределения σ ^ 2

Эмпирическое правило нормального распределения состоит в том, что значения 68,27% находятся в пределах одного стандартного отклонения, значения 95,45% находятся в пределах двух стандартных отклонений, а значения 99,73% находятся в пределах двух стандартных отклонений.

Гамма-распределение

Что такое гамма-распределение? Где это используется? Гамма-распределение помогает предсказать время ожидания до наступления n-го события. Гамма-распределение имеет два параметра: альфа -, который представляет форму, и бета-, который представляет масштаб. Параметр формы, как следует из названия, определяет форму распределения, а параметр масштаба определяет статистическую дисперсию. Если s велико, то распределение будет более разбросанным; если s мало, то он будет более концентрированным. Немногочисленные примеры гамма-распределения - это количество осадков, накопленных в резервуаре, размер невыплаченных кредитов или совокупных страховых требований, нагрузка на веб-серверы и т. Д.

Функция плотности вероятности гамма-распределения имеет вид

Среднее значение гамма-распределения равно

Дисперсия гамма-распределения равна

Резюме

Я рассмотрел основные дистрибутивы, которые могут быть полезны специалистам по анализу данных при их анализе и моделировании. Поделитесь своими мыслями и вопросами в комментариях. Буду рад ответить на ваши вопросы.

Использованная литература:-