Что такого особенного в нормальном распределении вероятностей? Почему так много статей по науке о данных и машинному обучению вращается вокруг нормального распределения вероятностей?
Мир машинного обучения и науки о данных вращается вокруг концепций распределения вероятностей, а суть концепции распределения вероятностей сосредоточена на нормальных распределениях. В этой статье показано, что такое нормальное распределение. и почему он широко используется, в частности, для специалистов по обработке данных и специалистов по машинному обучению.
У нас много данных, но сами по себе данные неинтересны. Данные необходимо интерпретировать, чтобы придать смысл. Данные могут быть «распределены» (разложены) по-разному:
Бывают случаи, когда данные распределяются как «колоколообразная кривая», где данные имеют тенденцию быть около центрального значения (т. Е. Среднего) без смещения влево или вправо, без множественных режимов, и они приближаются к «нормальному распределению» ( симметричный и одномодальный).
На рисунке выше «колоколообразная кривая» является нормальным распределением, а синяя гистограмма показывает некоторые данные, которые следует за ней близко, но не идеально (что обычно). Распределение обычно называют кривой колокола, потому что оно похоже на колокол.
Примеры, которые в основном следуют нормальному распределению
- Кровяное давление
- Рост учеников в классе
- Ошибки при проведении измерений
- Отметки в тесте и т. Д.
Немного базовой терминологии
- Среднее (μ) - это среднее значение набора данных.
- Медиана - это середина набора чисел.
- Режим - это наиболее частое число (пик) в наборе данных. Унимодальное распределение имеет только один пик в распределении, бимодальное распределение имеет два пика, а мультимодальное распределение имеет три или более пика.
- Смещение - это тенденция статистики к завышению или недооценке параметра.
5. Асимметрия - это искажение или асимметрия, которые отклоняются от симметричной колоколообразной кривой или нормального распределения в наборе данных.
6. Стандартное отклонение (σ) - это мера степени отклонения или разброса набора значений. Низкое стандартное отклонение указывает на то, что значения имеют тенденцию быть близкими к среднему значению набора, в то время как высокое стандартное отклонение указывает, что значения разбросаны в более широком диапазоне.
Пример оценки IQ учащихся в классе:
Характеристики нормального распределения
- среднее = медиана = режим
- Симметрично относительно центра
- Унимодальный
- 50% значений меньше среднего и 50% больше среднего
Форма нормального распределения
- 68,3% значений находятся в пределах 1 стандартного отклонения (1σ) от среднего
- 95,5% значений находятся в пределах 2 стандартных отклонений (2σ) от среднего
- 99,7% значений находятся в пределах 3 стандартных отклонений (3σ) от среднего
Всегда полезно знать стандартное отклонение, потому что мы можем сказать, что любое значение:
- вероятно будет в пределах 1 стандартного отклонения (1σ) (должно быть 68,3 из 100)
- очень вероятно находится в пределах 2 стандартных отклонений (2σ) (должно быть 95,5 из 100)
- почти наверняка в пределах 3 стандартных отклонений (3σ) (должно быть 997 из 1000)
Пример
95,5% учеников школы получили оценки в тесте от 32 до 98.
Предполагая, что эти данные нормально распределены, мы можем вычислить среднее значение и стандартное отклонение.
Среднее значение находится на полпути между 32 и 98:
Среднее (μ) = (32 + 98) / 2 = 65
95,5% - это 2 стандартных отклонения по обе стороны от среднего (всего 4 стандартных отклонения), поэтому:
1 стандартное отклонение (σ) = (98–32) / 4 = 66/4 = 16,5
Стандартное нормальное распределение
Что такое «Z-оценка»?
Количество стандартных отклонений от среднего также называется «стандартной оценкой», «сигмой» или «Z-оценкой». Проще говоря, Z-оценка описывает положение исходной оценки с точки зрения ее расстояния от среднего, когда измеряется в единицах стандартного отклонения.
- Z - это «z-оценка» (стандартная оценка)
- x - значение, которое необходимо стандартизировать.
- μ (мю) - среднее
- σ (сигма) - стандартное отклонение
Z-оценку можно поместить на кривую нормального распределения. Z-значения варьируются от -3 стандартных отклонений (которые упадут в крайнее левое положение) до +3 стандартных отклонения (которые упадут в крайнее правое положение).
- Z-оценка = 0 - указывает, что оценка точки данных совпадает со средней оценкой.
- Z-score = 1.0 - укажите значение, которое составляет одно стандартное отклонение от среднего.
- Z-баллы могут быть положительными или отрицательными, при этом положительное значение указывает на то, что балл выше среднего, а отрицательный балл означает, что он ниже среднего.
Стандартизация
Мы можем взять любое нормальное распределение и преобразовать его в стандартное нормальное распределение.
Стандартное нормальное распределение, также называемое z -распределением, является специальным нормальным распределением, в котором среднее значение (μ) равно 0, а стандартное отклонение (σ) равно 1 и обозначается Z (0,1).
Зачем стандартизировать значения?
Разрешите пояснить это на примере.
Предположим, ваш учитель ставит вам за последний экзамен 100 баллов при успешном прохождении 45 баллов.
Ниже представлены результаты, полученные вами и вашими одноклассниками:
30, 75, 26, 72, 18, 44, 35, 12, 56, 33, 28
Согласно вышеприведенным оценкам, большинство из них выйдет из строя, и только 3 пройдут !! 😰
Экзамен, должно быть, был очень сложным, поэтому учитель решает стандартизировать все оценки и подводить людей только на одно стандартное отклонение ниже среднего.
Среднее значение составляет 39, а Стандартное отклонение составляет 19,4, и это стандартные баллы:
-0.46, 1.85, -0.67, 1.70, -1.08, -0.26, -0.21,-1.39, 0.87, 0.21,-0.05
Теперь только 2 ученика не пройдут экзамен (‹-1, те, у которых меньше -1 стандартного отклонения, так как σ = 1) 😇
Используйте стандартное нормальное распределение, чтобы найти вероятность
Стандартное нормальное распределение - это распределение вероятностей, поэтому область под кривой между двумя точками показывает вероятность того, что переменные принимают диапазон значений. Общая площадь под кривой 1 или 100%.
Каждый z -счетчик имеет связанное с ним p -значение, которое сообщает вам вероятность появления всех значений ниже или выше этого z -счета. Это площадь под кривой слева или справа от этого z -счета.
Вот почему Нормальное распределение важно в мире науки о данных и машинного обучения !!
Спасибо за чтение ❤
С любыми предложениями или вопросами оставляйте свои комментарии ниже и следите за обновлениями.
Если вам понравилась статья, нажмите значок 👏, чтобы поддержать ее. Это поможет другим пользователям Medium найти его. Поделитесь им, чтобы другие могли его прочитать!
Удачного обучения! 😊