Обнаружение выбросов в машинном обучении

Что такое выбросы?

Выбросы — это точки данных, которые значительно отличаются от остальных точек данных в наборе данных. Выбросы увеличивают дисперсию в наборе данных, что, в свою очередь, приводит к снижению статистической мощности. Поэтому очень важно идентифицировать эти выбросы и относиться к ним соответствующим образом.

Причины возникновения выбросов

Выбросы могут возникать по разным причинам. Некоторые из наиболее распространенных причин включают в себя:

Ошибка ввода данных.
Несоответствующее масштабирование точек данных.
Ошибки, возникающие при измерении.
Наличие подлинных экстремальных точек данных.

Важность обнаружения выбросов

Теперь, когда мы знаем причины возникновения выбросов, также важно знать, почему важно идентифицировать эти выбросы. Простая причина заключается в том, что на некоторые показатели центральной тенденции и меры изменчивости влияют выбросы.

Среднее значение. Поскольку среднее значение — это среднее значение всех значений, представленных в наборе данных, на него влияет наличие выбросов. Среднее смещается в сторону выброса.
Медиана. Медиана — это среднее значение набора данных, на которое не влияет наличие выбросов. Поэтому мы должны использовать медиану вместо среднего, когда имеем дело с наборами данных, состоящими из выбросов.
Мода. Мода — это значение, которое встречается в наборе данных максимальное количество раз и на которое не влияют выбросы.
Дисперсия и стандартное отклонение. Поскольку для расчета как дисперсии, так и стандартного отклонения используется среднее значение, выбросы влияют и на то, и на другое.
Диапазон. Поскольку диапазон – это разница между минимальной и максимальной точками данных, на диапазон больше всего влияет наличие выбросов.

Поэтому, за исключением медианы и моды, наличие выбросов влияет на большинство других важных показателей. Помимо этих причин, выбросы также вызывают проблемы при подборе моделей и увеличивают количество ошибок. Поэтому очень важно выявить эти выбросы.

Методы выявления выбросов

1. Метод IQR

Межквартильный диапазон (IQR) — это средние 50% набора данных. Другими словами, это разница между значением третьего квартиля (75-й процентиль) и первого квартиля (25-й процентиль) набора данных.

IQR = Q3 -Q1

Нижняя граница= Q1–1,5*IQR

Верхняя граница= Q3+1,5*IQR

IQR находит нижнюю и верхнюю границы для выявления выбросов. Любое значение, которое в 1,5 раза выше или ниже этих пороговых значений, идентифицируется как выброс.

2. Z-оценка

Z-оценка сообщает нам, на сколько стандартных отклонений выше или ниже среднего значения лежит точка данных. Предполагается, что точки данных следуют распределению Гаусса.

Z-оценка = (X-среднее) /стандартное отклонение

Из приведенного выше нормального рисунка распределения мы можем сделать вывод, что:

68% данных лежат в пределах 1 стандартного отклонения.
95% данных лежат в пределах 2 стандартных отклонений.
99,7% данных лежат в пределах 3 стандартных отклонений.

Поскольку большинство точек данных (99,7%) лежат в пределах 3 стандартных отклонений выше или ниже среднего значения, любой Z-показатель больше +3 или любой Z-показатель меньше -3 считается выбросом.

3. Визуализация

Наличие выбросов также можно обнаружить с помощью различных методов визуализации. Некоторые из известных сюжетов включают в себя:

График рассеяния
Коробка и ус сюжет
Гистограмма
Распределительный участок
Сюжет QQ

4. DBSCAN ( пространственная кластеризация приложений с шумом на основе плотности)

DBSCAN — это метод кластеризации, который используется для отделения кластеров высокой плотности от кластеров низкой плотности. Он в основном делит точки данных на основные точки, пограничные точки или точки шума. Здесь точки шума являются выбросами.

5. Проверка гипотез

Мы также можем использовать проверку гипотез для выявления выбросов в наборе данных. Некоторые из известных тестов гипотез для обнаружения выбросов включают в себя:

тест Граббса
критерий хи-квадрат
Тест Диксона Q

Каждый из этих вышеупомянутых тестов использует разные методы для выявления выбросов. В тесте Грабба мы предполагаем, что:

Нулевая гипотеза. Все точки данных в выборке были взяты из одной совокупности, которая следует одному и тому же нормальному распределению.

Альтернативная гипотеза. Одна точка данных в выборке не была взята из той же нормально распределенной совокупности, что и другие точки данных.

Если p-значение меньше уровня значимости, мы можем отклонить нулевую гипотезу и сделать вывод, что одно из значений является выбросом.

Обработка выбросов

Итак, теперь, когда мы знаем, как и зачем обнаруживать выбросы, возникает следующий вопрос: что делать с этими выбросами.

Один простой способ — просто отбросить выброс, но это не подходит для всех сценариев. в зависимости от варианта использования нам нужно решить, следует ли отбрасывать выброс или нет.

Когда удалять выброс?

Когда мы точно знаем, что выброс совершенно неверен.
Когда у нас есть большой объем данных.
Когда мы сможем вернуться к исходным данным, если на более позднем этапе мы обнаружим, что удаление выброса было плохой идеей.

Когда не следует удалять выброс?

Когда много посторонних.
При работе с деликатным критическим вариантом использования.

Что делать с неудаляемыми выбросами?

Импутация. Мы можем заменить выбросы средним, медианным значением или значением режима в зависимости от варианта использования.
Ограничение и ограничение на основе квантилей. В этом методе мы можем выполнить ограничение (например, замену на 10-й процентиль) для более низких значений и ограничение (например, замену на 90-й процентиль) для более высоких значений. ценности.

Заключение

Обнаружение и обработка выбросов является одним из основных этапов предварительной обработки данных, и его нельзя игнорировать. Игнорирование выбросов приведет к искажению данных, и мы можем не получить желаемый результат.

Пожалуйста, аплодируйте и поделитесь, если вам понравилась эта статья! Приятного чтения!