Безполезни ли са извънредните стойности?

Да знаете кога отклоненията са важни и как да ги моделирате отделно.

Знам. Понякога отклоненията причиняват много болка за нас. Понякога трябва да потискам желанието просто да ги изхвърля от набора от данни. Извънредните стойности са част от данните и винаги е опасно да се манипулират данните без подходяща логика.

Има много начини за справяне с отклоненията. Можете да регистрирате преобразуване на стойностите или да ги отрежете според определен праг, ако е необходимо. Ще публикувам друга история за това как да идентифицираме отклоненията. За тази история нека се съсредоточим върху моделирането на извънредните стойности.

Кога отклоненията са полезни?

Трудно е да ги мислим за полезни, тъй като те често объркват производителността на нашите модели за машинно обучение или дори с нашите визуализации.

Въпреки това отклоненията могат да бъдат значими. Това е, когато те също имат определен модел или честота. Погледнете трите точки с данни в горния десен ъгъл на графиката. Има ли определено значение?

Извънредните стойности стават значими, когато са в определени контексти като измама, повреда на машина, наводнение или земетресение. Всеки контекст има различни истории зад себе си и следователно изисква различен подход. В тази история ще се съсредоточим върху извънредните стойности в контекста на природни бедствия като наводнения или земетресения.

Как моделираме отклоненията?

В случай на наводнения има тази концепция, наречена „повторен период“. Това е средният интервал от време за повторение на определено събитие. Наводнение със 100-годишен период на повторение би означавало, че това количество наводнение ще идва на всеки 100 години. С нарастването на тежестта на наводнението ще се увеличи и периодът на повторение. Данните, които можем да използваме, за да разберем повторния период на всяко наводнение, можем да използваме данните за валежите.

Не очакваме наводнения да се случват всеки ден. По този начин, за ежедневните данни за валежите, силният дъжд, който води до наводнения, е отклонение. Случва се само от време на време. И ако искаме да предвидим интервала на следващия силен дъжд, ще трябва да разберем модела на „извънредните стойности“ в нашия набор от данни.

Пикове над прага

Методът, който се каня да представя, е „пикове над прага“. Както можете да заключите от името, методът разделя стойности, които надхвърлят определен праг, и отговаря на разпределението към тези точки от данни.

Да се върнем към примера с ежедневните данни за дъжд. Когато мислим за дъжд, обикновено не мислим за наводнения, тъй като те обикновено са екстремни примери за дъжд. Същото е и за статистически модели или модели за машинно обучение. Тъй като повечето набори от данни представляват нормален дъжд, за модела ще бъде трудно да улови характеристиките на наводненията. Просто ще го третира като шум.

Поради тази причина отделяме само екстремните точки от данни за нашия модел. А разпределението, отделено от основния набор от данни, се нарича „разпределение на дъщера“.

Тъй като данните за разпределение на деца се определят според прага, за нас би било критично да определим подходящия. Тогава как да зададем прага? Има ли критерии за това? Няма ли да е трудно да се моделира въз основа на малък набор от данни? Да, ще бъде трудно да се намери разпределение, защото не се използват толкова много точки от данни и те също имат висока вариация. Освен ако, защо биха били наречени извънредни...

За да обобщим, ето стъпките за пикове над прага

Задайте праг за „отрязване“ на данните
Експериментирайте с различни параметри, за да намерите правилното разпределение за дъщерното разпределение
Извършете обратно тестване, за да тествате, за да тествате производителността

В следващата публикация ще се потопим в техническите подробности за пиковете над прага. Също така ще ви преведа през целия процес на анализ, като например задаване на прага, тестване на различни параметри за разпространението, бектест и разбиране на ефективността на модела.

[1]Период за връщане - Уикипедия

[2] Авторски github (за графиките)

Безполезни ли са извънредните стойности? — как да моделираме извънредни стойности, използвайки екстремни статистики

Да знаете кога отклоненията са важни и как да ги моделирате отделно.