Что такое выбросы?
Выбросы — это точки данных, которые значительно отличаются от остальных точек данных в наборе данных. Выбросы увеличивают дисперсию в наборе данных, что, в свою очередь, приводит к снижению статистической мощности. Поэтому очень важно идентифицировать эти выбросы и относиться к ним соответствующим образом.
Причины возникновения выбросов
Выбросы могут возникать по разным причинам. Некоторые из наиболее распространенных причин включают в себя:
- Ошибка ввода данных.
- Несоответствующее масштабирование точек данных.
- Ошибки, возникающие при измерении.
- Наличие подлинных экстремальных точек данных.
Важность обнаружения выбросов
Теперь, когда мы знаем причины возникновения выбросов, также важно знать, почему важно идентифицировать эти выбросы. Простая причина заключается в том, что на некоторые показатели центральной тенденции и меры изменчивости влияют выбросы.
- Среднее значение. Поскольку среднее значение — это среднее значение всех значений, представленных в наборе данных, на него влияет наличие выбросов. Среднее смещается в сторону выброса.
- Медиана. Медиана — это среднее значение набора данных, на которое не влияет наличие выбросов. Поэтому мы должны использовать медиану вместо среднего, когда имеем дело с наборами данных, состоящими из выбросов.
- Мода. Мода — это значение, которое встречается в наборе данных максимальное количество раз и на которое не влияют выбросы.
- Дисперсия и стандартное отклонение. Поскольку для расчета как дисперсии, так и стандартного отклонения используется среднее значение, выбросы влияют и на то, и на другое.
- Диапазон. Поскольку диапазон – это разница между минимальной и максимальной точками данных, на диапазон больше всего влияет наличие выбросов.
Поэтому, за исключением медианы и моды, наличие выбросов влияет на большинство других важных показателей. Помимо этих причин, выбросы также вызывают проблемы при подборе моделей и увеличивают количество ошибок. Поэтому очень важно выявить эти выбросы.
Методы выявления выбросов
1. Метод IQR
Межквартильный диапазон (IQR) — это средние 50% набора данных. Другими словами, это разница между значением третьего квартиля (75-й процентиль) и первого квартиля (25-й процентиль) набора данных.
IQR = Q3 -Q1
Нижняя граница= Q1–1,5*IQR
Верхняя граница= Q3+1,5*IQR
IQR находит нижнюю и верхнюю границы для выявления выбросов. Любое значение, которое в 1,5 раза выше или ниже этих пороговых значений, идентифицируется как выброс.
2. Z-оценка
Z-оценка сообщает нам, на сколько стандартных отклонений выше или ниже среднего значения лежит точка данных. Предполагается, что точки данных следуют распределению Гаусса.
Z-оценка = (X-среднее) /стандартное отклонение
Из приведенного выше нормального рисунка распределения мы можем сделать вывод, что:
- 68% данных лежат в пределах 1 стандартного отклонения.
- 95% данных лежат в пределах 2 стандартных отклонений.
- 99,7% данных лежат в пределах 3 стандартных отклонений.
Поскольку большинство точек данных (99,7%) лежат в пределах 3 стандартных отклонений выше или ниже среднего значения, любой Z-показатель больше +3 или любой Z-показатель меньше -3 считается выбросом.
3. Визуализация
Наличие выбросов также можно обнаружить с помощью различных методов визуализации. Некоторые из известных сюжетов включают в себя:
- График рассеяния
- Коробка и ус сюжет
- Гистограмма
- Распределительный участок
- Сюжет QQ
4. DBSCAN ( пространственная кластеризация приложений с шумом на основе плотности)
DBSCAN — это метод кластеризации, который используется для отделения кластеров высокой плотности от кластеров низкой плотности. Он в основном делит точки данных на основные точки, пограничные точки или точки шума. Здесь точки шума являются выбросами.
5. Проверка гипотез
Мы также можем использовать проверку гипотез для выявления выбросов в наборе данных. Некоторые из известных тестов гипотез для обнаружения выбросов включают в себя:
- тест Граббса
- критерий хи-квадрат
- Тест Диксона Q
Каждый из этих вышеупомянутых тестов использует разные методы для выявления выбросов. В тесте Грабба мы предполагаем, что:
Нулевая гипотеза. Все точки данных в выборке были взяты из одной совокупности, которая следует одному и тому же нормальному распределению.
Альтернативная гипотеза. Одна точка данных в выборке не была взята из той же нормально распределенной совокупности, что и другие точки данных.
Если p-значение меньше уровня значимости, мы можем отклонить нулевую гипотезу и сделать вывод, что одно из значений является выбросом.
Обработка выбросов
Итак, теперь, когда мы знаем, как и зачем обнаруживать выбросы, возникает следующий вопрос: что делать с этими выбросами.
Один простой способ — просто отбросить выброс, но это не подходит для всех сценариев. в зависимости от варианта использования нам нужно решить, следует ли отбрасывать выброс или нет.
Когда удалять выброс?
- Когда мы точно знаем, что выброс совершенно неверен.
- Когда у нас есть большой объем данных.
- Когда мы сможем вернуться к исходным данным, если на более позднем этапе мы обнаружим, что удаление выброса было плохой идеей.
Когда не следует удалять выброс?
- Когда много посторонних.
- При работе с деликатным критическим вариантом использования.
Что делать с неудаляемыми выбросами?
- Импутация. Мы можем заменить выбросы средним, медианным значением или значением режима в зависимости от варианта использования.
- Ограничение и ограничение на основе квантилей. В этом методе мы можем выполнить ограничение (например, замену на 10-й процентиль) для более низких значений и ограничение (например, замену на 90-й процентиль) для более высоких значений. ценности.
Заключение
Обнаружение и обработка выбросов является одним из основных этапов предварительной обработки данных, и его нельзя игнорировать. Игнорирование выбросов приведет к искажению данных, и мы можем не получить желаемый результат.
Пожалуйста, аплодируйте и поделитесь, если вам понравилась эта статья! Приятного чтения!