Публикации по теме 'outliers'
Обнаружение выбросов с помощью простых и продвинутых методов
Руководство по обнаружению выбросов с использованием стандартного отклонения, межквартильного диапазона, изолирующего леса, DBSCAN и локального фактора выбросов.
Выбросы — это точки данных, которые находятся далеко от большинства наблюдений в наборе данных. Выбросы могут появляться по многим причинам, таким как естественные отклонения в поведении населения, мошеннические действия, человеческие или системные ошибки. Однако обнаружение и идентификация выбросов необходимо перед..
Удаление выбросов с использованием Z-оценки для модели линейной регрессии
В статистике выброс — это точка данных, которая значительно отличается от других наблюдений. Выброс может быть связан с изменчивостью измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных . Выброс может вызвать серьезные проблемы в статистическом анализе. Ниже приведена методика обнаружения выбросов и способы их удаления с помощью Z-Score. Код написан на Python, а в качестве IDE используется Google Colab.
Необходимые библиотеки:..
Обработка отсутствующих данных и выбросов в машинном обучении: проблемы и решения
Машинное обучение — это быстро развивающаяся область с бесконечными потенциальными приложениями. Однако, как и в любой области исследования, существуют проблемы, которые необходимо решить, чтобы получить точные результаты. Две самые большие проблемы, с которыми сталкивается машинное обучение, — это отсутствие данных и выбросы.
Отсутствующие данные могут возникать по разным причинам. Возможно, данные вообще никогда не собирались или были собраны, но потеряны или повреждены. Выбросы —..
Выбросы бесполезны? — как моделировать выбросы, используя экстремальную статистику
Знать, когда важны выбросы, и как моделировать их отдельно.
Выбросы бесполезны?
Я знаю. Иногда выбросы причиняют нам много боли. Иногда мне приходится подавлять желание просто исключить их из набора данных. Выбросы являются частью данных, и всегда опасно манипулировать данными без надлежащей логики.
Есть много способов справиться с выбросами. Вы можете преобразовать значения в журнал или отрезать их в соответствии с определенным порогом, если это необходимо. Я опубликую еще..
Взлом кода обнаружения аномалий: методы и инструменты
Обнаружение аномалий — важная часть анализа данных и машинного обучения. Это может помочь обнаружить необычные шаблоны в наборе данных, которые могут указывать на мошеннические действия, злонамеренные атаки или другие аномалии, которые могут повлиять на производительность системы.
В этом сообщении блога мы обсудим, что такое обнаружение аномалий и как его можно использовать для выявления потенциальных проблем с наборами данных.
Обнаружение аномалий включает в себя анализ наборов..
Вопросы по теме 'outliers'
Удаление выделенных пикселей из небольшого бинарного изображения
В настоящее время я реализую алгоритм определения оси минимальной инерции цветной массы (обеспечиваемой вторыми моментами). Для этого мне нужно получить центр масс, заданный первыми моментами.
Функция взвешенного усреднения работает хорошо, но...
1606 просмотров
schedule
01.04.2024
Эквивалент 'range' в boxplot для ggplot2
Я пытаюсь заставить усы geom_boxplot ggplot2 покрыть выбросы. Выбросы de facto не будут отображаться в виде точек, поскольку они заключены в прямоугольную диаграмму.
Если бы я использовал стандартный «коробчатый график», я бы использовал:...
6250 просмотров
schedule
01.11.2023
Как я могу использовать индексные структуры в ELKI?
Это цитаты из http://elki.dbs.ifi.lmu.de/ :
«По сути, мы привязываем абстрактный запрос расстояния к базе данных, а затем получаем поиск ближайшего соседа для этого расстояния. В этот момент ELKI автоматически выберет наиболее подходящий класс...
634 просмотров
schedule
26.02.2024
Холта-Винтерса для многосезонного прогнозирования на Python
Мои данные: у меня есть две сезонные модели в моих почасовых данных ... ежедневно и еженедельно. Например ... каждый день в моем наборе данных имеет примерно одинаковую форму в зависимости от часа дня. Однако в некоторые дни, такие как суббота и...
1936 просмотров
schedule
17.03.2024
Знание, какие точки принадлежат какому кластеру в DBSCAN
Мне нужно использовать DBSCAN для кластеризации ставок на футбольные матчи.
Данные состоят из:
Идентификационный номер, домашняя команда, гости, дата, время, шансы на победу хозяев, шансы на ничью и шансы на победу на чужом поле.
Мне нужны...
283 просмотров
schedule
12.11.2023
Вывод ELKI GUI и параметр k (LOF)
Я с подозрением отношусь к: Материализации k ближайших соседей (k=3) в следующем выводе.
Подробный вывод из графического интерфейса пользователя ELKI, работающего с LOFalgorithm, lof.k=2 .
LOF #1/3: Materializing LOF neighborhoods....
92 просмотров
schedule
04.12.2023
Коробчатая диаграмма по группам, а также определяемая пользователем диаграмма рассеяния (маркеры для подмножества значений)
Работая с лабораторными данными, я хочу наложить на коробчатую диаграмму подмножество точек данных, сгруппированных по лечению и упорядоченных по временным точкам. Объединить все элементы вместе в SAS непросто и требует умного подхода, который я не...
1195 просмотров
schedule
25.10.2023
Функция для удаления выбросов из DataFrame
Я хочу написать функцию, которая будет принимать data.frame в качестве входных данных и возвращать новый data.frame , который заменил выбросы, используя функцию tsclean() из пакета прогнозов.
Для примера ввода df (содержащего очевидные...
1281 просмотров
schedule
15.03.2024
Измените расчет выбросов в блочной диаграмме с помощью ggplot In R
Я пытаюсь настроить boxplot, и мне это удалось, за исключением одного момента. Дело в том, что я не могу понять, как я могу использовать stat_summary для отображения выбросов. У меня есть разные диаграммы на одном большом графике, и выбросы не...
951 просмотров
schedule
28.09.2022
Несколько тестов Граббса одновременно в R
Я новичок в использовании R, я только начинаю с пакета выбросов. Вероятно, это очень просто, но кто-нибудь может сказать мне, как запустить несколько тестов Граббса одновременно? У меня есть 20 столбцов, и я хочу протестировать их все одновременно....
1053 просмотров
schedule
03.11.2022
Фильтрация выбросов в кадре данных Pandas с скользящей медианой
Я пытаюсь отфильтровать некоторые выбросы из точечной диаграммы смещения высоты GPS с датами.
Я пытаюсь использовать df.rolling для вычисления медианы и стандартного отклонения для каждого окна, а затем удалить точку, если она превышает 3...
9119 просмотров
schedule
14.01.2024
Неконтролируемое обнаружение выбросов
У меня по 6 точек в каждой строке и около 20 тысяч таких строк. Каждая из этих точек строки на самом деле является точкой на кривой, характер кривой каждой из строк одинаков (например, сигмоидальная кривая или прямая линия и т. д.). Эти 6 точек...
170 просмотров
schedule
16.11.2023
Удаление одинаковых выбросов в двух временных рядах
У меня вопрос об исключении выбросов из двух временных рядов. Один временной ряд включает цены на спотовом рынке, а другой включает выходную мощность. Две серии относятся к периоду с 2012 по 2016 год и представляют собой файлы CSV с отметкой времени...
555 просмотров
schedule
17.12.2023
замена выбросов их средним значением для многослойных данных в R с использованием dplyr
Моя df с разными клиентами вместе с их данными о продажах, но есть некоторые выбросы, и я хотел бы заменить выбросы (которые выше 2 SD ниже среднего) (μ ± 2σ) и заменить их их каждым значением customer_id.
structure(list(Date = c("6/29/2014",...
149 просмотров
schedule
24.03.2024
Найдите кодовые войны выбросов четности (Scala)
Недавно я выполнял некоторые задания CodeWars, и у меня возникла проблема с этим.
«Вам дан массив (длина которого будет не менее 3, но может быть очень большим), содержащий целые числа. Массив либо полностью состоит из нечетных целых чисел, либо...
149 просмотров
schedule
23.04.2024
Пометьте выброс в plot()
Я хочу построить данные, которые имеют 1 выброс. Мне нужен такой график, на котором помечен номер наблюдения выброса. Для этого у меня есть данные:
res
x x x x x
-0.39123009 -0.02907481...
32 просмотров
schedule
26.05.2024
Как удалить выбросы в наборе данных, который содержит как категориальные, так и числовые данные?
Я пытаюсь удалить выбросы из столбца «Цена» в наборе данных. Мне удалось создать фрейм данных выбросов с соответствующими значениями в других столбцах, но я изо всех сил пытаюсь исключить эти записи из родительского набора данных. Как мне это...
82 просмотров
schedule
03.10.2022