В статистике выброс — это точка данных, которая значительно отличается от других наблюдений. Выброс может быть связан с изменчивостью измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных. Выброс может вызвать серьезные проблемы в статистическом анализе. Ниже приведена методика обнаружения выбросов и способы их удаления с помощью Z-Score. Код написан на Python, а в качестве IDE используется Google Colab.

Необходимые библиотеки:

Смонтировать диск:

нам нужно смонтировать диск, чтобы импортировать файл данных.

Фильтрация данных:

Теперь мы фильтруем данные, чтобы получить поля или строки, содержащие информацию определенного типа. Затем к этой информации или новым данным мы применим линейную регрессию.

Предположим, что Coulmn1 содержит данные String, и нам нужно отфильтровать coulmn1, чтобы получить определенный тип информации и сохранить эту информацию в новом фрейме данных. затем мы применим линейную регрессию к столбцам 2 и 3 этого нового фрейма данных. Столбец 2 и столбец 3 содержат только числовые данные.

Обнаружение выбросов с помощью BoxPlot:

Вы можете обнаружить выбросы любого столбца, используя Boxplot. Также график регрессии может быть очень полезен для определения взаимосвязи между столбцами данных и выбросами.

Удаление выбросов с помощью Z-показателя:

Сначала нам нужно подсчитать выбросы в данных.

После подсчета нам нужно удалить эти выбросы и снова проверить подсчет. Этот Zscore просто подсчитает те строки, у которых порог больше или меньше 3, и удалит эти строки из набора данных.

Теперь вы можете снова проверить, удалены ли выбросы, используя boxplot, или df.shape также может сообщить вам, сколько строк было удалено из-за удаления выбросов.

Линейная регрессия:

Оценка линейной регрессии:

Есть 3 основных показателя для оценки модели в регрессии:

  • R-квадрат/скорректированный R-квадрат.
  • Среднеквадратическая ошибка (MSE)/среднеквадратичная ошибка (RMSE)
  • Средняя абсолютная ошибка (MAE)