Что такое выбросы?

Выбросы — это точки данных, которые значительно отличаются от остальных точек данных в наборе данных. Выбросы увеличивают дисперсию в наборе данных, что, в свою очередь, приводит к снижению статистической мощности. Поэтому очень важно идентифицировать эти выбросы и относиться к ним соответствующим образом.

Причины возникновения выбросов

Выбросы могут возникать по разным причинам. Некоторые из наиболее распространенных причин включают в себя:

  • Ошибка ввода данных.
  • Несоответствующее масштабирование точек данных.
  • Ошибки, возникающие при измерении.
  • Наличие подлинных экстремальных точек данных.

Важность обнаружения выбросов

Теперь, когда мы знаем причины возникновения выбросов, также важно знать, почему важно идентифицировать эти выбросы. Простая причина заключается в том, что на некоторые показатели центральной тенденции и меры изменчивости влияют выбросы.

  • Среднее значение. Поскольку среднее значение — это среднее значение всех значений, представленных в наборе данных, на него влияет наличие выбросов. Среднее смещается в сторону выброса.
  • Медиана. Медиана — это среднее значение набора данных, на которое не влияет наличие выбросов. Поэтому мы должны использовать медиану вместо среднего, когда имеем дело с наборами данных, состоящими из выбросов.
  • Мода. Мода — это значение, которое встречается в наборе данных максимальное количество раз и на которое не влияют выбросы.
  • Дисперсия и стандартное отклонение. Поскольку для расчета как дисперсии, так и стандартного отклонения используется среднее значение, выбросы влияют и на то, и на другое.
  • Диапазон. Поскольку диапазон – это разница между минимальной и максимальной точками данных, на диапазон больше всего влияет наличие выбросов.

Поэтому, за исключением медианы и моды, наличие выбросов влияет на большинство других важных показателей. Помимо этих причин, выбросы также вызывают проблемы при подборе моделей и увеличивают количество ошибок. Поэтому очень важно выявить эти выбросы.

Методы выявления выбросов

1. Метод IQR

Межквартильный диапазон (IQR) — это средние 50% набора данных. Другими словами, это разница между значением третьего квартиля (75-й процентиль) и первого квартиля (25-й процентиль) набора данных.

IQR = Q3 -Q1

Нижняя граница= Q1–1,5*IQR

Верхняя граница= Q3+1,5*IQR

IQR находит нижнюю и верхнюю границы для выявления выбросов. Любое значение, которое в 1,5 раза выше или ниже этих пороговых значений, идентифицируется как выброс.

2. Z-оценка

Z-оценка сообщает нам, на сколько стандартных отклонений выше или ниже среднего значения лежит точка данных. Предполагается, что точки данных следуют распределению Гаусса.

Z-оценка = (X-среднее) /стандартное отклонение

Из приведенного выше нормального рисунка распределения мы можем сделать вывод, что:

  • 68% данных лежат в пределах 1 стандартного отклонения.
  • 95% данных лежат в пределах 2 стандартных отклонений.
  • 99,7% данных лежат в пределах 3 стандартных отклонений.

Поскольку большинство точек данных (99,7%) лежат в пределах 3 стандартных отклонений выше или ниже среднего значения, любой Z-показатель больше +3 или любой Z-показатель меньше -3 считается выбросом.

3. Визуализация

Наличие выбросов также можно обнаружить с помощью различных методов визуализации. Некоторые из известных сюжетов включают в себя:

  • График рассеяния
  • Коробка и ус сюжет
  • Гистограмма
  • Распределительный участок
  • Сюжет QQ

4. DBSCAN ( пространственная кластеризация приложений с шумом на основе плотности)

DBSCAN — это метод кластеризации, который используется для отделения кластеров высокой плотности от кластеров низкой плотности. Он в основном делит точки данных на основные точки, пограничные точки или точки шума. Здесь точки шума являются выбросами.

5. Проверка гипотез

Мы также можем использовать проверку гипотез для выявления выбросов в наборе данных. Некоторые из известных тестов гипотез для обнаружения выбросов включают в себя:

  • тест Граббса
  • критерий хи-квадрат
  • Тест Диксона Q

Каждый из этих вышеупомянутых тестов использует разные методы для выявления выбросов. В тесте Грабба мы предполагаем, что:

Нулевая гипотеза. Все точки данных в выборке были взяты из одной совокупности, которая следует одному и тому же нормальному распределению.

Альтернативная гипотеза. Одна точка данных в выборке не была взята из той же нормально распределенной совокупности, что и другие точки данных.

Если p-значение меньше уровня значимости, мы можем отклонить нулевую гипотезу и сделать вывод, что одно из значений является выбросом.

Обработка выбросов

Итак, теперь, когда мы знаем, как и зачем обнаруживать выбросы, возникает следующий вопрос: что делать с этими выбросами.

Один простой способ — просто отбросить выброс, но это не подходит для всех сценариев. в зависимости от варианта использования нам нужно решить, следует ли отбрасывать выброс или нет.

Когда удалять выброс?

  • Когда мы точно знаем, что выброс совершенно неверен.
  • Когда у нас есть большой объем данных.
  • Когда мы сможем вернуться к исходным данным, если на более позднем этапе мы обнаружим, что удаление выброса было плохой идеей.

Когда не следует удалять выброс?

  • Когда много посторонних.
  • При работе с деликатным критическим вариантом использования.

Что делать с неудаляемыми выбросами?

  • Импутация. Мы можем заменить выбросы средним, медианным значением или значением режима в зависимости от варианта использования.
  • Ограничение и ограничение на основе квантилей. В этом методе мы можем выполнить ограничение (например, замену на 10-й процентиль) для более низких значений и ограничение (например, замену на 90-й процентиль) для более высоких значений. ценности.

Заключение

Обнаружение и обработка выбросов является одним из основных этапов предварительной обработки данных, и его нельзя игнорировать. Игнорирование выбросов приведет к искажению данных, и мы можем не получить желаемый результат.

Пожалуйста, аплодируйте и поделитесь, если вам понравилась эта статья! Приятного чтения!