Статистика, которую следует учитывать при анализе значения с предыдущим набором значений

Я пытаюсь найти хороший статистический метод для сравнения заданного значения с существующим набором значений. В настоящее время я рассматриваю среднее значение существующих чисел и сравниваю его с заданным значением. Если значение отличается на 50% от среднего, я бы сказал, что оно не в порядке. Я использую язык программирования python для всех вычислений. Возможен ли другой, более эффективный метод?

Пример: 1,4,7,0,0,0 — это значения, которые существуют в настоящее время.

Я получаю среднее из них: 2

Если данное значение равно 10, я бы сказал, что оно не соответствует действительности.

Может есть более действенный способ?


person Srinivasan A    schedule 26.02.2016    source источник


Ответы (1)


Насколько я понимаю, вам нужна некоторая мера центральной тенденции. Их три: среднее, медиана и мода. Какой из них вы хотите использовать, зависит от ваших целей и приоритетов. Mean очень популярен и понятен людям. Он имеет много полезных статистических свойств. Однако он подвержен выбросам. С другой стороны, мода и медиана не подвержены влиянию выбросов, но имеют меньше статистических применений. Кроме того, в случае медианы и среднего значение, которое вы вычисляете, может фактически не быть в вашем наборе данных, тогда как мода будет.

Какие из этих соображений важны для вас?

Но даже после того, как вы выберете меру центральной тенденции, которая вам нравится, как вы собираетесь определить, когда что-то «слишком далеко» от заданного? В вашем вопросе вы делаете это только в процентах, но это может быть не лучший способ.

Для большинства задач я, вероятно, использовал бы среднее значение в качестве меры центральной тенденции и использовал бы стандартное отклонение в качестве статистики, чтобы определить, является ли цифра «неправильной». Но что-то другое может работать лучше для вас.

person ubadub    schedule 26.02.2016