Мое путешествие по науке о данных с @10Alytics, @Ikpoefemena и @Adeiza Suleman было феноменальным. Я очень счастлив, что сделал шаг к изучению науки о данных, которая является отличным способом решения вечных проблем, с которыми сталкивается мир во всех аспектах его деятельности. Мы все сталкиваемся с данными и их использованием каждую минуту дня. Начиная от того, сколько людей покровительствовало вашему малому и крупному бизнесу вчера по сравнению с сегодняшним числом людей, которые посещали Facebook в день, количество осадков в месяц и многое другое. Стремясь улучшить понимание того, как анализируются данные, я решил написать о мере асимметрии.

Проще говоря, мера асимметрии — это то, как элементы в наборе данных группируются вокруг среднего значения. Идеально сбалансированная кластеризация по обе стороны от среднего показывает симметричное распределение, в противном случае это асимметричное распределение.

Прежде чем мы углубимся в эту тему, очень важно рассмотреть то, что обычно называют средним значением, медианой и модой (также известной как мера центральных тенденций), поскольку они будут способствовать пониманию актуальной темы.

Среднее просто означает среднее. Обозначается µ для генеральной совокупности и для выборки. У него есть формула.

Хотя это наиболее распространенный показатель центральной тенденции, на него влияют выбросы. Этого недостаточно для того, чтобы сделать определенный вывод.

С другой стороны, медиана — это просто число в середине упорядоченного (в порядке возрастания) набора данных. Медиана рассчитывается следующим образом: (n+1/2), n — количество наблюдений. В отличие от среднего, выбросы не влияют на медиану.

Mode – это наиболее часто встречающееся значение (т. е. значение, которое встречается чаще всего). Это единственный из трех, который можно использовать как для числовых, так и для категориальных типов данных.

Для получения более точного результата рекомендуется использовать измерения центральных тенденций вместе, а не по отдельности.

Показатель центральных тенденций (среднее, медиана и мода)

Теперь вернемся к нашему основному пункту обсуждения, мере асимметрии.

Асимметрия – наиболее часто используемый инструмент для измерения асимметрии. Это означает, насколько сконцентрированы значения или наблюдения в наборе данных с одной стороны, чем с другой. Асимметрия имеет формулу:

Как указывалось ранее, обычно существует два типа распределения (симметричное и асимметричное распределение).

Набор данных называется симметричным, если он имеет одинаковое среднее значение, медиану и моду. Также говорят, что это имеет нулевой перекос или его отсутствие.

Асимметричное распределение (асимметричное распределение)

Типы асимметричного распределения

Положительный перекос, также называемый правым перекосом, возникает, когда среднее значение больше медианы, а режим представляет собой значение с наивысшим визуальным представлением. Это также означает, что выбросы находятся справа, что означает, что значения больше сконцентрированы в левой части режима.

Отрицательный перекос, также известный как перекос влево, возникает, когда среднее значение меньше медианы. Выбросы в этом случае оставляются.

Среднее ‹ медиана ‹ мода среднее = медиана = мода среднее › медиана › мода

Диаграмма, показывающая различные типы асимметрии

ПРИМЕЧАНИЕ: направление перекоса зависит от того, в какую сторону наклонен его хвост, а не в сторону, к которой наклонена линия.

*Выбросы.выброс — это точка данных, которая значительно отличается от других наблюдений. Это чрезвычайно низкие или чрезвычайно высокие значения, вызывающие ошибку при анализе набора данных.