Что такого особенного в нормальном распределении вероятностей? Почему так много статей по науке о данных и машинному обучению вращается вокруг нормального распределения вероятностей?

Мир машинного обучения и науки о данных вращается вокруг концепций распределения вероятностей, а суть концепции распределения вероятностей сосредоточена на нормальных распределениях. В этой статье показано, что такое нормальное распределение. и почему он широко используется, в частности, для специалистов по обработке данных и специалистов по машинному обучению.

У нас много данных, но сами по себе данные неинтересны. Данные необходимо интерпретировать, чтобы придать смысл. Данные могут быть «распределены» (разложены) по-разному:

Бывают случаи, когда данные распределяются как «колоколообразная кривая», где данные имеют тенденцию быть около центрального значения (т. Е. Среднего) без смещения влево или вправо, без множественных режимов, и они приближаются к «нормальному распределению» ( симметричный и одномодальный).

На рисунке выше «колоколообразная кривая» является нормальным распределением, а синяя гистограмма показывает некоторые данные, которые следует за ней близко, но не идеально (что обычно). Распределение обычно называют кривой колокола, потому что оно похоже на колокол.

Примеры, которые в основном следуют нормальному распределению

  1. Кровяное давление
  2. Рост учеников в классе
  3. Ошибки при проведении измерений
  4. Отметки в тесте и т. Д.

Немного базовой терминологии

  1. Среднее (μ) - это среднее значение набора данных.
  2. Медиана - это середина набора чисел.
  3. Режим - это наиболее частое число (пик) в наборе данных. Унимодальное распределение имеет только один пик в распределении, бимодальное распределение имеет два пика, а мультимодальное распределение имеет три или более пика.
  4. Смещение - это тенденция статистики к завышению или недооценке параметра.

5. Асимметрия - это искажение или асимметрия, которые отклоняются от симметричной колоколообразной кривой или нормального распределения в наборе данных.

6. Стандартное отклонение (σ) - это мера степени отклонения или разброса набора значений. Низкое стандартное отклонение указывает на то, что значения имеют тенденцию быть близкими к среднему значению набора, в то время как высокое стандартное отклонение указывает, что значения разбросаны в более широком диапазоне.

Пример оценки IQ учащихся в классе:

Характеристики нормального распределения

  • среднее = медиана = режим
  • Симметрично относительно центра
  • Унимодальный
  • 50% значений меньше среднего и 50% больше среднего

Форма нормального распределения

  • 68,3% значений находятся в пределах 1 стандартного отклонения (1σ) от среднего
  • 95,5% значений находятся в пределах 2 стандартных отклонений (2σ) от среднего
  • 99,7% значений находятся в пределах 3 стандартных отклонений (3σ) от среднего

Всегда полезно знать стандартное отклонение, потому что мы можем сказать, что любое значение:

  • вероятно будет в пределах 1 стандартного отклонения (1σ) (должно быть 68,3 из 100)
  • очень вероятно находится в пределах 2 стандартных отклонений (2σ) (должно быть 95,5 из 100)
  • почти наверняка в пределах 3 стандартных отклонений (3σ) (должно быть 997 из 1000)

Пример

95,5% учеников школы получили оценки в тесте от 32 до 98.

Предполагая, что эти данные нормально распределены, мы можем вычислить среднее значение и стандартное отклонение.

Среднее значение находится на полпути между 32 и 98:

Среднее (μ) = (32 + 98) / 2 = 65

95,5% - это 2 стандартных отклонения по обе стороны от среднего (всего 4 стандартных отклонения), поэтому:

1 стандартное отклонение (σ) = (98–32) / 4 = 66/4 = 16,5

Стандартное нормальное распределение

Что такое «Z-оценка»?

Количество стандартных отклонений от среднего также называется «стандартной оценкой», «сигмой» или «Z-оценкой». Проще говоря, Z-оценка описывает положение исходной оценки с точки зрения ее расстояния от среднего, когда измеряется в единицах стандартного отклонения.

  • Z - это «z-оценка» (стандартная оценка)
  • x - значение, которое необходимо стандартизировать.
  • μ (мю) - среднее
  • σ (сигма) - стандартное отклонение

Z-оценку можно поместить на кривую нормального распределения. Z-значения варьируются от -3 стандартных отклонений (которые упадут в крайнее левое положение) до +3 стандартных отклонения (которые упадут в крайнее правое положение).

  • Z-оценка = 0 - указывает, что оценка точки данных совпадает со средней оценкой.
  • Z-score = 1.0 - укажите значение, которое составляет одно стандартное отклонение от среднего.
  • Z-баллы могут быть положительными или отрицательными, при этом положительное значение указывает на то, что балл выше среднего, а отрицательный балл означает, что он ниже среднего.

Стандартизация

Мы можем взять любое нормальное распределение и преобразовать его в стандартное нормальное распределение.

Стандартное нормальное распределение, также называемое z -распределением, является специальным нормальным распределением, в котором среднее значение (μ) равно 0, а стандартное отклонение (σ) равно 1 и обозначается Z (0,1).

Зачем стандартизировать значения?

Разрешите пояснить это на примере.

Предположим, ваш учитель ставит вам за последний экзамен 100 баллов при успешном прохождении 45 баллов.

Ниже представлены результаты, полученные вами и вашими одноклассниками:

30, 75, 26, 72, 18, 44, 35, 12, 56, 33, 28

Согласно вышеприведенным оценкам, большинство из них выйдет из строя, и только 3 пройдут !! 😰

Экзамен, должно быть, был очень сложным, поэтому учитель решает стандартизировать все оценки и подводить людей только на одно стандартное отклонение ниже среднего.

Среднее значение составляет 39, а Стандартное отклонение составляет 19,4, и это стандартные баллы:

-0.46, 1.85, -0.67, 1.70, -1.08, -0.26, -0.21,-1.39, 0.87, 0.21,-0.05

Теперь только 2 ученика не пройдут экзамен (‹-1, те, у которых меньше -1 стандартного отклонения, так как σ = 1) 😇

Используйте стандартное нормальное распределение, чтобы найти вероятность

Стандартное нормальное распределение - это распределение вероятностей, поэтому область под кривой между двумя точками показывает вероятность того, что переменные принимают диапазон значений. Общая площадь под кривой 1 или 100%.

Каждый z -счетчик имеет связанное с ним p -значение, которое сообщает вам вероятность появления всех значений ниже или выше этого z -счета. Это площадь под кривой слева или справа от этого z -счета.

Вот почему Нормальное распределение важно в мире науки о данных и машинного обучения !!

Спасибо за чтение ❤

С любыми предложениями или вопросами оставляйте свои комментарии ниже и следите за обновлениями.

Если вам понравилась статья, нажмите значок 👏, чтобы поддержать ее. Это поможет другим пользователям Medium найти его. Поделитесь им, чтобы другие могли его прочитать!

Удачного обучения! 😊