Публикации по теме 'outliers'


Обнаружение выбросов с помощью простых и продвинутых методов
Руководство по обнаружению выбросов с использованием стандартного отклонения, межквартильного диапазона, изолирующего леса, DBSCAN и локального фактора выбросов. Выбросы — это точки данных, которые находятся далеко от большинства наблюдений в наборе данных. Выбросы могут появляться по многим причинам, таким как естественные отклонения в поведении населения, мошеннические действия, человеческие или системные ошибки. Однако обнаружение и идентификация выбросов необходимо перед..

Удаление выбросов с использованием Z-оценки для модели линейной регрессии
В статистике выброс — это точка данных, которая значительно отличается от других наблюдений. Выброс может быть связан с изменчивостью измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных . Выброс может вызвать серьезные проблемы в статистическом анализе. Ниже приведена методика обнаружения выбросов и способы их удаления с помощью Z-Score. Код написан на Python, а в качестве IDE используется Google Colab. Необходимые библиотеки:..

Обработка отсутствующих данных и выбросов в машинном обучении: проблемы и решения
Машинное обучение — это быстро развивающаяся область с бесконечными потенциальными приложениями. Однако, как и в любой области исследования, существуют проблемы, которые необходимо решить, чтобы получить точные результаты. Две самые большие проблемы, с которыми сталкивается машинное обучение, — это отсутствие данных и выбросы. Отсутствующие данные могут возникать по разным причинам. Возможно, данные вообще никогда не собирались или были собраны, но потеряны или повреждены. Выбросы —..

Выбросы бесполезны? — как моделировать выбросы, используя экстремальную статистику
Знать, когда важны выбросы, и как моделировать их отдельно. Выбросы бесполезны? Я знаю. Иногда выбросы причиняют нам много боли. Иногда мне приходится подавлять желание просто исключить их из набора данных. Выбросы являются частью данных, и всегда опасно манипулировать данными без надлежащей логики. Есть много способов справиться с выбросами. Вы можете преобразовать значения в журнал или отрезать их в соответствии с определенным порогом, если это необходимо. Я опубликую еще..

Взлом кода обнаружения аномалий: методы и инструменты
Обнаружение аномалий — важная часть анализа данных и машинного обучения. Это может помочь обнаружить необычные шаблоны в наборе данных, которые могут указывать на мошеннические действия, злонамеренные атаки или другие аномалии, которые могут повлиять на производительность системы. В этом сообщении блога мы обсудим, что такое обнаружение аномалий и как его можно использовать для выявления потенциальных проблем с наборами данных. Обнаружение аномалий включает в себя анализ наборов..

Вопросы по теме 'outliers'

Удаление выделенных пикселей из небольшого бинарного изображения
В настоящее время я реализую алгоритм определения оси минимальной инерции цветной массы (обеспечиваемой вторыми моментами). Для этого мне нужно получить центр масс, заданный первыми моментами. Функция взвешенного усреднения работает хорошо, но...
1606 просмотров
schedule 01.04.2024

Эквивалент 'range' в boxplot для ggplot2
Я пытаюсь заставить усы geom_boxplot ggplot2 покрыть выбросы. Выбросы de facto не будут отображаться в виде точек, поскольку они заключены в прямоугольную диаграмму. Если бы я использовал стандартный «коробчатый график», я бы использовал:...
6250 просмотров
schedule 01.11.2023

Как я могу использовать индексные структуры в ELKI?
Это цитаты из http://elki.dbs.ifi.lmu.de/ : «По сути, мы привязываем абстрактный запрос расстояния к базе данных, а затем получаем поиск ближайшего соседа для этого расстояния. В этот момент ELKI автоматически выберет наиболее подходящий класс...
634 просмотров

Холта-Винтерса для многосезонного прогнозирования на Python
Мои данные: у меня есть две сезонные модели в моих почасовых данных ... ежедневно и еженедельно. Например ... каждый день в моем наборе данных имеет примерно одинаковую форму в зависимости от часа дня. Однако в некоторые дни, такие как суббота и...
1936 просмотров

Знание, какие точки принадлежат какому кластеру в DBSCAN
Мне нужно использовать DBSCAN для кластеризации ставок на футбольные матчи. Данные состоят из: Идентификационный номер, домашняя команда, гости, дата, время, шансы на победу хозяев, шансы на ничью и шансы на победу на чужом поле. Мне нужны...
283 просмотров
schedule 12.11.2023

Вывод ELKI GUI и параметр k (LOF)
Я с подозрением отношусь к: Материализации k ближайших соседей (k=3) в следующем выводе. Подробный вывод из графического интерфейса пользователя ELKI, работающего с LOFalgorithm, lof.k=2 . LOF #1/3: Materializing LOF neighborhoods....
92 просмотров
schedule 04.12.2023

Коробчатая диаграмма по группам, а также определяемая пользователем диаграмма рассеяния (маркеры для подмножества значений)
Работая с лабораторными данными, я хочу наложить на коробчатую диаграмму подмножество точек данных, сгруппированных по лечению и упорядоченных по временным точкам. Объединить все элементы вместе в SAS непросто и требует умного подхода, который я не...
1195 просмотров
schedule 25.10.2023

Функция для удаления выбросов из DataFrame
Я хочу написать функцию, которая будет принимать data.frame в качестве входных данных и возвращать новый data.frame , который заменил выбросы, используя функцию tsclean() из пакета прогнозов. Для примера ввода df (содержащего очевидные...
1281 просмотров
schedule 15.03.2024

Измените расчет выбросов в блочной диаграмме с помощью ggplot In R
Я пытаюсь настроить boxplot, и мне это удалось, за исключением одного момента. Дело в том, что я не могу понять, как я могу использовать stat_summary для отображения выбросов. У меня есть разные диаграммы на одном большом графике, и выбросы не...
951 просмотров
schedule 28.09.2022

Несколько тестов Граббса одновременно в R
Я новичок в использовании R, я только начинаю с пакета выбросов. Вероятно, это очень просто, но кто-нибудь может сказать мне, как запустить несколько тестов Граббса одновременно? У меня есть 20 столбцов, и я хочу протестировать их все одновременно....
1053 просмотров
schedule 03.11.2022

Фильтрация выбросов в кадре данных Pandas с скользящей медианой
Я пытаюсь отфильтровать некоторые выбросы из точечной диаграммы смещения высоты GPS с датами. Я пытаюсь использовать df.rolling для вычисления медианы и стандартного отклонения для каждого окна, а затем удалить точку, если она превышает 3...
9119 просмотров

Неконтролируемое обнаружение выбросов
У меня по 6 точек в каждой строке и около 20 тысяч таких строк. Каждая из этих точек строки на самом деле является точкой на кривой, характер кривой каждой из строк одинаков (например, сигмоидальная кривая или прямая линия и т. д.). Эти 6 точек...
170 просмотров

Удаление одинаковых выбросов в двух временных рядах
У меня вопрос об исключении выбросов из двух временных рядов. Один временной ряд включает цены на спотовом рынке, а другой включает выходную мощность. Две серии относятся к периоду с 2012 по 2016 год и представляют собой файлы CSV с отметкой времени...
555 просмотров
schedule 17.12.2023

замена выбросов их средним значением для многослойных данных в R с использованием dplyr
Моя df с разными клиентами вместе с их данными о продажах, но есть некоторые выбросы, и я хотел бы заменить выбросы (которые выше 2 SD ниже среднего) (μ ± 2σ) и заменить их их каждым значением customer_id. structure(list(Date = c("6/29/2014",...
149 просмотров
schedule 24.03.2024

Найдите кодовые войны выбросов четности (Scala)
Недавно я выполнял некоторые задания CodeWars, и у меня возникла проблема с этим. «Вам дан массив (длина которого будет не менее 3, но может быть очень большим), содержащий целые числа. Массив либо полностью состоит из нечетных целых чисел, либо...
149 просмотров
schedule 23.04.2024

Пометьте выброс в plot()
Я хочу построить данные, которые имеют 1 выброс. Мне нужен такой график, на котором помечен номер наблюдения выброса. Для этого у меня есть данные: res x x x x x -0.39123009 -0.02907481...
32 просмотров
schedule 26.05.2024

Как удалить выбросы в наборе данных, который содержит как категориальные, так и числовые данные?
Я пытаюсь удалить выбросы из столбца «Цена» в наборе данных. Мне удалось создать фрейм данных выбросов с соответствующими значениями в других столбцах, но я изо всех сил пытаюсь исключить эти записи из родительского набора данных. Как мне это...
82 просмотров
schedule 03.10.2022