Откриване на отклонения в машинното обучение

Какво представляват отклоненията?

Извънредните стойности са точките от данни, които са значително различни от останалите точки от данни в набора от данни. Извънредните стойности увеличават дисперсията в набора от данни, което от своя страна води до намаляване на статистическата мощност. Така че е много важно да идентифицирате тези извънредни стойности и да ги лекувате по съответния начин.

Причини за възникване на Outliers

Отклоненията могат да възникнат поради различни причини. Някои от най-честите причини включват:

Грешка при въвеждане на данни.
Неподходящо мащабиране на точки от данни.
Грешки, причинени по време на измерване.
Наличие на истински екстремни точки от данни.

Значение на откриването на отклонения

Сега, след като знаем причините за възникването на отклоненията, също е важно да знаем защо е важно да идентифицираме тези отклонения. Простата причина е, че някои от мерките за централна тенденция и мерките за променливост се влияят от извънредни стойности.

Средна стойност: Тъй като средната стойност е средната стойност на всички налични стойности в набора от данни, тя се влияе от наличието на извънредни стойности. Средната стойност се измества към отклонението.
Медиана: Медианата е средната стойност на набора от данни и не се влияе от наличието на отклонения. Така че трябва да използваме медиана вместо средна, когато имаме работа с набори от данни, състоящи се от отклонения.
Режим: Режимът е стойността, която се среща максимален брой пъти в набора от данни и не се влияе от извънредните стойности.
Дисперсия и стандартно отклонение: Тъй като средната стойност се използва за изчисляване както на дисперсията, така и на стандартното отклонение, и двете се влияят от извънредните стойности.
Диапазон:Тъй като диапазонът е разликата между минималните и максималните точки от данни, диапазонът се влияе най-силно от наличието на отклонения.

Следователно, освен медианата и режима, повечето от другите важни мерки се влияят от наличието на отклонения. Освен тези причини, извънредните стойности също причиняват проблеми при напасването на моделите и увеличават грешките. Така че е много важно да се идентифицират тези отклонения.

Методи за идентифициране на отклоненията

1. IQR метод

Междуквартилният диапазон (IQR) е средните 50% от набора от данни. С други думи, това е разликата между стойността на третия квартил (75-ия персентил) и първия квартил (25-ия персентил) на набора от данни.

IQR = Q3 -Q1

Долна граница= Q1–1,5*IQR

Горна граница= Q3+1,5*IQR

IQR намира долната и горната граница, за да идентифицира отклоненията. Всяка стойност, която е 1,5 пъти над или под тези прагове, се идентифицира като отклонение.

2. Z-резултат

Z-резултатът ни казва колко стандартни отклонения над или под средната стойност има точка от данни. Предполага се, че точките от данни следват разпределение на Гаус.

Z-Резултат = (X-средно) /Стандартно отклонение

От горната цифра на нормалното разпределение можем да разберем, че:

68% от данните са в рамките на 1 стандартно отклонение.
95% от данните са в рамките на 2 стандартни отклонения.
99,7% от данните са в рамките на 3 стандартни отклонения.

Тъй като по-голямата част от точките с данни (99,7%) се намират в рамките на 3 стандартни отклонения над или под средната стойност, всеки Z-резултат над +3 или всеки Z-резултат под -3 се счита за отклонение.

3. Визуализация

Наличието на извънредни стойности може също да бъде открито чрез използване на различни методи за визуализация. Някои от известните сюжети включват:

Точкова диаграма
Сюжет на кутия и мустаци
Хистограма
Разпределителен парцел
QQ сюжет

4. DBSCAN (Пространствено клъстериране на приложения с шум на базата на плътност)

DBSCAN е метод за клъстериране, който се използва за разделяне на клъстери с висока плътност от клъстери с ниска плътност. Той основно разделя точките от данни на основни точки, гранични точки или шумови точки. Тук шумовите точки са крайните стойности.

5. Тестване на хипотези

Можем също да използваме тестване на хипотези, за да идентифицираме отклоненията в набора от данни. Някои от известните тестове за хипотези за откриване на отклонения включват:

Тест на Гръбс
Хи-квадрат тест
Q тест на Диксън

Всеки от тези гореспоменати тестове използва различни методи за идентифициране на отклонения. В теста на Grubb приемаме, че:

Нулева хипотеза: Всички точки от данни в извадката са извлечени от една популация, която следва същото нормално разпределение.

Алтернативна хипотеза: Една точка от данни в извадката не е извлечена от същата нормално разпределена популация като другите точки от данни.

Ако p-стойността е по-малка от нивото на значимост, можем да отхвърлим нулевата хипотеза и да заключим, че една от стойностите е отклонение.

Боравене с отклонения

Сега, след като знаем как и защо да откриваме отклонения, следващият въпрос, който възниква, е какво да правим с тези отклонения.

Един прост начин е просто да премахнете отклонението, но това не е правилно за всички сценарии. въз основа на случая на употреба трябва да решим дали да изпуснем отклонение или не.

Кога да изпуснете отклонение?

Когато знаем със сигурност, че отклонението е напълно грешно.
Когато имаме голямо количество данни.
Кога можем да се върнем обратно към оригиналните данни, ако на по-късен етап установим, че премахването на отклонението не е добра идея.

Кога да не изпускате отклонение?

Когато има много извънредни стойности.
Когато работите с чувствителен критичен случай на употреба.

Какво да правим с необратими стойности?

Внушение: Можем да заменим извънредните стойности със средна стойност, медиана или стойност на режим въз основа на случая на употреба.
Покриване и ограничаване на базата на квантили: При тази техника можем да правим настилане (напр. замяна с 10-ия персентил) за по-ниските стойности и ограничаване (напр. замяна с 90-ия персентил) за по-високите стойности.

Заключение

Откриването и обработката на отклонения е една от основните стъпки в предварителната обработка на данни и не може да бъде пренебрегната. Пренебрегването на извънредните стойности ще доведе до изкривяване на данните и може да не получим желания резултат.

Моля, пляскайте и споделете, ако харесвате тази статия! Приятно четене!