У меня по 6 точек в каждой строке и около 20 тысяч таких строк. Каждая из этих точек строки на самом деле является точкой на кривой, характер кривой каждой из строк одинаков (например, сигмоидальная кривая или прямая линия и т. д.). Эти 6 точек могут иметь разные значения x в каждой строке. Я также знаю точку (a, b) для каждой строки, через которую должна проходить эта кривая. Как я должен найти строки, которые могут быть аномальными или демонстрировать неожиданное поведение, чем другие строки? Я думал о подгонке кривой, но тогда у меня есть только 6 точек для каждой кривой, все, что я знаю, это то, что большинство строк имеют одинаковую природу кривой, поэтому я, возможно, могу сделать общую кривую для всех рядов и иметь порог расстояния для обнаружение выброса.
Неконтролируемое обнаружение выбросов
comment
Возьмите удвоенное стандартное отклонение. Каждое значение, не являющееся выбросом, должно находиться в диапазоне от среднего минус удвоенное стандартное отклонение до среднего плюс удвоенное стандартное отклонение. (до 3x может работать лучше)
- person Attersson   schedule 28.05.2018
comment
Среднее значение у для каждого значения х? Но у меня может быть только одно значение y для каждого значения x, я не понимаю
- person ayush gupta   schedule 28.05.2018
comment
Попробуйте использовать среднее значение всех значений y и его стандартное отклонение. Затем оцените для каждого x, попадает ли y в диапазон. Посмотрите, работает ли это. Дай мне знать
- person Attersson   schedule 28.05.2018
comment
Выброс следует рассматривать как отклонение от среднего значения на 5*сигма: 2*сигма определенно не является выбросом! Я не уверен, что понимаю вашу структуру данных. Соответствует ли каждый столбец одному значению X? В любом случае, было бы полезно опубликовать небольшой пример того, что вы пытаетесь сделать.
- person M Newville   schedule 28.05.2018
Ответы (1)
Что произойдет, если вы просто обработаете 6 точек как 12-мерный вектор и запустите любой из обычных методов обнаружения выбросов, таких как LOF и LoOP?
Легко увидеть взаимосвязь между евклидовым расстоянием на 12-мерном векторе и 6 евклидовыми расстояниями по 6 точек в каждом. Итак, это сравнит сходство этих кривых.
Конечно, вы также можете определить сложную функцию расстояния для LOF.
person
Has QUIT--Anony-Mousse
schedule
30.05.2018