Неконтролируемое обнаружение выбросов

У меня по 6 точек в каждой строке и около 20 тысяч таких строк. Каждая из этих точек строки на самом деле является точкой на кривой, характер кривой каждой из строк одинаков (например, сигмоидальная кривая или прямая линия и т. д.). Эти 6 точек могут иметь разные значения x в каждой строке. Я также знаю точку (a, b) для каждой строки, через которую должна проходить эта кривая. Как я должен найти строки, которые могут быть аномальными или демонстрировать неожиданное поведение, чем другие строки? Я думал о подгонке кривой, но тогда у меня есть только 6 точек для каждой кривой, все, что я знаю, это то, что большинство строк имеют одинаковую природу кривой, поэтому я, возможно, могу сделать общую кривую для всех рядов и иметь порог расстояния для обнаружение выброса.


person ayush gupta    schedule 28.05.2018    source источник
comment
Возьмите удвоенное стандартное отклонение. Каждое значение, не являющееся выбросом, должно находиться в диапазоне от среднего минус удвоенное стандартное отклонение до среднего плюс удвоенное стандартное отклонение. (до 3x может работать лучше)   -  person Attersson    schedule 28.05.2018
comment
Среднее значение у для каждого значения х? Но у меня может быть только одно значение y для каждого значения x, я не понимаю   -  person ayush gupta    schedule 28.05.2018
comment
Попробуйте использовать среднее значение всех значений y и его стандартное отклонение. Затем оцените для каждого x, попадает ли y в диапазон. Посмотрите, работает ли это. Дай мне знать   -  person Attersson    schedule 28.05.2018
comment
Выброс следует рассматривать как отклонение от среднего значения на 5*сигма: 2*сигма определенно не является выбросом! Я не уверен, что понимаю вашу структуру данных. Соответствует ли каждый столбец одному значению X? В любом случае, было бы полезно опубликовать небольшой пример того, что вы пытаетесь сделать.   -  person M Newville    schedule 28.05.2018


Ответы (1)


Что произойдет, если вы просто обработаете 6 точек как 12-мерный вектор и запустите любой из обычных методов обнаружения выбросов, таких как LOF и LoOP?

Легко увидеть взаимосвязь между евклидовым расстоянием на 12-мерном векторе и 6 евклидовыми расстояниями по 6 точек в каждом. Итак, это сравнит сходство этих кривых.

Конечно, вы также можете определить сложную функцию расстояния для LOF.

person Has QUIT--Anony-Mousse    schedule 30.05.2018