Вероятность и статистика составляют основу науки о данных. Теория вероятностей очень помогает делать прогнозы. Оценки и прогнозы составляют важную часть науки о данных. С помощью статистических методов делаем оценки для дальнейшего анализа. Таким образом, статистические методы во многом зависят от теории вероятностей. И вся вероятность и статистика зависят от Данных.

Данные

Данные - это собранная у нас информация (наблюдения) о чем-либо или факты и статистика, собранные вместе для справки или анализа.

Данные - набор фактов (чисел, слов, измерений, наблюдений и т. Д.), Переведенных в форму, которую компьютеры могут обрабатывать.

Почему данные имеют значение?

  • Помогает лучше понять данные, определяя отношения, которые могут существовать между двумя переменными.
  • Помогает предсказывать будущее или прогноз на основе предыдущего тренда данных.
  • Помогает в определении закономерностей, которые могут существовать между данными.
  • Помогает в обнаружении мошенничества путем выявления аномалий в данных.

В настоящее время данные имеют большое значение, поскольку мы можем сделать из них важную информацию. Теперь давайте посмотрим, как данные распределяются по категориям. Данные могут быть двух типов: категориальные и числовые. Например, в банке у нас есть регионы, род занятий, пол, которые соответствуют категориальным данным, поскольку данные находятся в пределах фиксированного определенного значения, а баланс, кредитный рейтинг, возраст, месяцы пребывания в должности следуют числовому непрерывному распределению, поскольку данные могут следовать неограниченному диапазону значений. .

Примечание. Категориальные данные можно визуализировать с помощью столбчатой ​​диаграммы, круговой диаграммы, Диаграммы Парето. Числовые данные могут быть визуализированы в виде гистограммы, линейного графика, точечной диаграммы.

Описательная статистика

Описательная статистика - это сводная статистика, которая количественно описывает или суммирует характеристики набора информации. Это помогает нам лучше узнать наши данные. Он используется для описания характеристик данных.

Уровень измерения данных

Качественные и количественные данные очень похожи на приведенные выше категориальные и числовые данные.

Номинальный: данные на этом уровне классифицируются по именам, ярлыкам или качествам. например: фирменное наименование, почтовый индекс, пол.

Порядковый: данные на этом уровне можно упорядочивать или ранжировать, а также сравнивать. например: оценки, отзывы звезд, положение в гонке, свидание.

Интервал: данные на этом уровне можно упорядочить, поскольку они находятся в диапазоне значений, и можно вычислить значимые различия между точками данных. например: температура в градусах Цельсия, год рождения

Соотношение: данные на этом уровне аналогичны интервальному уровню с добавленным свойством присущего нуля. По этим точкам данных можно выполнять математические вычисления. например: рост, возраст, вес

Проверьте это: ДАННЫЕ | Махрита Харахап

Население или данные выборки

Прежде чем выполнять какой-либо анализ данных, мы должны определить, являются ли данные, с которыми мы имеем дело, совокупностью или выборкой.

Население: коллекция всех элементов (N), включающая все без исключения единицы нашего исследования. Трудно определить, и мера характеристики, такой как среднее значение, режим называется параметром.

Выборка. Подмножество генеральной совокупности (n), включающее лишь несколько единиц генеральной совокупности. Он выбирается случайным образом, а мера характеристики называется статистикой.

Например, предположим, что вы хотите узнать средний доход подписчиков на услугу подписки на фильмы (параметр). Мы составили случайную выборку из 1000 подписчиков и определили, что их средний доход (x) составляет 34 500 долларов США (статистика). Мы пришли к выводу, что средний доход населения (μ) также, вероятно, будет близок к 34 500 долларам.

Теперь, прежде чем смотреть на распределения данных. Давайте посмотрим на показатели данных.

Меры центральной тенденции

Мера центральной тенденции - это одно значение, которое пытается описать набор данных, определяя центральное положение в этом наборе данных. Таким образом, меры центральной тенденции иногда называют мерами центрального расположения. Они также относятся к категории сводной статистики.

Среднее: среднее значение равно сумме всех значений в наборе данных, деленной на количество значений в наборе данных, т. е. вычисленное среднее значение. Он подвержен выбросам, когда добавляются необычные значения, он искажается, т.е. отклоняется от типичного центрального значения.

Медиана: медиана - это среднее значение для набора данных, упорядоченного по порядку величины. Медиана - лучшая альтернатива среднему значению, поскольку на нее меньше влияют выбросы и асимметрия данных. Среднее значение намного ближе, чем типичное центральное значение.

Если общее количество значений нечетное, то

Если общее количество значений четное, то

Режим. Режим - это наиболее часто встречающееся значение в наборе данных. Поэтому режим иногда может рассматриваться как самый популярный вариант.

Например, в наборе данных, содержащем значения {13,35,54,54,55,56 , 57,67,85,89,96}. Среднее значение 60,09. Медиана 56. Режим 54.

Меры асимметрии

Асимметрия: асимметрия - это асимметрия статистического распределения, при котором кривая выглядит искаженной или смещенной влево или вправо. Асимметрия указывает, сосредоточены ли данные на одной стороне.

Положительная асимметрия: положительная асимметрия - это средний ›средний› режим. Выбросы смещены вправо, т.е. хвост смещен вправо.

Отрицательная асимметрия: отрицательная асимметрия - это средний режим ‹median‹. Выбросы смещены влево, т.е. хвост смещен влево.

Асимметрия важна, поскольку она говорит нам о том, где распределены данные.

Например: Глобальное распределение доходов в 2003 г. сильно смещено вправо. Мы видим, что среднее значение 3 451 доллар в 2003 г. (зеленый цвет) больше, чем медианное значение 1090 долларов. Это говорит о том, что глобальный доход распределяется неравномерно. Доходы большинства людей составляют менее 2000 долларов и меньше людей с доходом выше 14000 долларов, так что перекос. Но похоже, что в 2035 году по прогнозу неравенство доходов со временем уменьшится.

Меры изменчивости (дисперсии)

Мера центральной тенденции дает единственное значение, которое представляет всю ценность; однако центральная тенденция не может полностью описать наблюдение. Мера дисперсии помогает нам изучить изменчивость элементов, то есть разброс данных.

Помните: данные о совокупности содержат N точек данных, а данные выборки содержат (n-1) точек данных. (n-1) называется поправкой Бесселя и используется для уменьшения систематической ошибки.

Диапазон: разница между наибольшим и наименьшим значением данных называется диапазоном распределения. Диапазон не учитывает все значения ряда, т.е. принимает только крайние элементы, а средние элементы не считаются значимыми. например: для {13,33,45,67,70} диапазон равен 57, т.е. (70–13).

Дисперсия. Дисперсия измеряет, насколько далеко сумма квадратов расстояний от каждой точки до среднего, то есть дисперсии вокруг среднего.

Дисперсия - это среднее значение всех квадратов отклонений.

Примечание. Единицы измерения значений и дисперсии не равны, поэтому мы используем другую меру изменчивости.

Стандартное отклонение. Поскольку отклонение зависит от разницы в единицах измерения, используется стандартное отклонение. Квадратный корень из дисперсии - это стандартное отклонение. Он говорит о концентрации данных вокруг среднего значения набора данных.

Например: {3,5,6,9,10} - значения в наборе данных.

Коэффициент вариации (CV): также называется относительным стандартным отклонением. Это отношение стандартного отклонения к среднему значению набора данных.

Стандартное отклонение - это изменчивость одного набора данных. Тогда как коэффициент дисперсии можно использовать для сравнения двух наборов данных.

Из приведенного выше примера мы видим, что резюме такое же. Оба метода точны. Так что он идеально подходит для сравнений.

Показатели квартилей

Квартили лучше разбираются в каждой точке данных.

Проверьте мой предыдущий пост - в Разделе я подробно остановился на квартилях.

Меры отношения

Меры взаимосвязи используются для сравнения двух переменных.

Ковариация: Ковариация - это мера взаимосвязи между изменчивостью 2 переменных, т. е. она измеряет степень изменения переменных: когда одна переменная изменяется, будет ли такое же / аналогичное изменение в другой. Переменная.

Ковариация не дает эффективной информации о связи между двумя переменными, поскольку она не нормализована.

Корреляция: корреляция позволяет лучше понять ковариацию. Это нормализованная ковариация. Корреляция говорит нам, насколько переменные коррелированы друг с другом. Его также называют коэффициентом корреляции Пирсона.

Значение корреляции колеблется от -1 до 1. -1 указывает на отрицательную корреляцию, т. Е. С увеличением одной независимой переменной происходит уменьшение другой зависимой переменной. 1 указывает на положительную корреляцию, т.е. с увеличением одной независимой переменной происходит увеличение. в другой зависимой переменной. 0 указывает, что переменные независимы друг от друга.

Например,

Корреляция 0,889 говорит нам, что рост и вес имеют положительную корреляцию. Очевидно, что с увеличением роста человека увеличивается и вес.

Примечание: Корреляция не подразумевает причинно-следственную связь, Ложная корреляция для некоторых странных корреляций.

Заключение

В этой статье мы узнали об описательной статистике, которая помогает нам лучше узнать о наших данных, понимая важные характеристики в наборе данных.