Свързани публикации 'outliers'


Откриване на отклонения с прости и усъвършенствани техники
Урок за това как да откривате извънредни стойности с помощта на стандартно отклонение, интерквартилен диапазон, изолираща гора, DBSCAN и локален фактор на извънредни стойности „Отклонения“ са точки от данни, които са далеч от по-голямата част от наблюденията в набора от данни. Извънредните стойности могат да се появят по много причини, като например естествени отклонения в поведението на населението, измамни дейности и човешки или системни грешки. Въпреки това, откриването и..

Премахване на извънредни стойности с помощта на Z-резултат за модел на линейна регресия
В статистиката отклонението е точка от данни, която се различава значително от други наблюдения. Отклонението може да се дължи на променливост в измерването или може да показва експериментална грешка; последните понякога се изключват от набора от данни . Отклонението може да причини сериозни проблеми при статистическите анализи. По-долу е дадена техниката за откриване на отклонения и как да ги премахнете с помощта на Z-Score. Кодът е написан на Python и Google Colab се използва като..

Боравене с липсващи данни и отклонения в машинното обучение: Предизвикателства и решения
Машинното обучение е бързо развиваща се област с безкрайни потенциални приложения. Въпреки това, както при всяка област на изследване, има предизвикателства, които трябва да бъдат разгледани, за да се постигнат точни резултати. Два от най-големите проблеми, с които се сблъсква машинното обучение, са липсващите данни и отклоненията. Липсващи данни могат да възникнат по различни причини. Може да се окаже, че данните никога не са били събирани на първо място или че са били събрани, но..

Безполезни ли са извънредните стойности? — как да моделираме извънредни стойности, използвайки екстремни статистики
Да знаете кога отклоненията са важни и как да ги моделирате отделно. Безполезни ли са извънредните стойности? Знам. Понякога отклоненията причиняват много болка за нас. Понякога трябва да потискам желанието просто да ги изхвърля от набора от данни. Извънредните стойности са част от данните и винаги е опасно да се манипулират данните без подходяща логика. Има много начини за справяне с отклоненията. Можете да регистрирате преобразуване на стойностите или да ги отрежете според..

Кракване на кода за откриване на аномалии: техники и инструменти
Откриването на аномалии е важна част от анализа на данни и машинното обучение. Може да помогне за откриване на необичайни модели в набор от данни, които могат да показват измамна дейност, злонамерени атаки или други аномалии, които могат да повлияят на производителността на системата. В тази публикация в блога ще обсъдим какво представлява откриването на аномалии и как може да се използва за идентифициране на потенциални проблеми с набори от данни. Откриването на аномалии включва..

Свързани въпроси 'outliers'

Променете изчислението на отклонение в Box plot, като използвате ggplot в R
Опитвам се да персонализирам boxplot и постигнах доста успех с изключение на една точка. Въпросът, който не мога да разбера, е как мога да използвам stat_summary, за да покажа отклонения. Имам различни графики в един голям график и отклоненията не...
951 изгледи
schedule 28.09.2022

Как да премахна извънредни стойности в набор от данни, който има както категорични, така и числени данни?
Опитвам се да премахна отклоненията от колоната „Цена“ в набор от данни. Успях да създам рамка от данни на извънредните стойности със съответните им стойности в други колони, но се боря да изключа тези записи от основния набор от данни. Как да...
82 изгледи
schedule 03.10.2022

Еквивалент на „диапазон“ в boxplot за ggplot2
Опитвам се да накарам мустаците на geom_boxplot на ggplot2 да покрият извънредните стойности. Извънредните стойности де факто няма да бъдат показани като точки, тъй като са обхванати от графиката. Ако използвах стандартния „boxplot“, щях да...
6250 изгледи
schedule 01.11.2023

Да знаете кои точки принадлежат към кой клъстер в DBSCAN
Трябва да използвам DBSCAN за групиране на коефициенти за залагане на футболни мачове. Данните се състоят от: ID, отбор домакин, отбор гост, дата, час, коефициенти за победа на домакините, коефициенти за равенство и коефициенти за победа на...
283 изгледи
schedule 12.11.2023

ELKI GUI изход и параметър k (LOF)
Подозрителен съм относно: Материализиране на k най-близки съседи (k=3) в следния изход. Подробен изход от ELKI GUI, изпълняващ LOFalgorithm, lof.k=2 . LOF #1/3: Materializing LOF neighborhoods....
92 изгледи
schedule 04.12.2023

Как мога да използвам индексните структури в ELKI?
Това са цитати от http://elki.dbs.ifi.lmu.de/ : „По същество ние свързваме абстрактната заявка за разстояние към база данни и след това получаваме търсене на най-близкия съсед за това разстояние. В този момент ELKI автоматично ще избере...
634 изгледи

Holt-Winters за многосезонно прогнозиране в Python
Моите данни: Имам два сезонни модела в почасовите си данни... дневни и седмични. Например... всеки ден в моя набор от данни има приблизително еднаква форма въз основа на часа от деня. Въпреки това, определени дни като събота и неделя показват...
1936 изгледи

Премахване на странични пиксели от малко двоично изображение
В момента прилагам алгоритъм за идентифициране на оста на минимална инерция на цветна маса (осигурена от вторите моменти). За да го направя, трябва да придобия центъра на масата, както е дадено от първите моменти. Функцията за претеглено...
1606 изгледи
schedule 01.04.2024