Променливостта и разпространението са важни понятия в статистиката, които помагат да се опише количеството на вариация или дисперсия в набор от данни. Тези мерки предоставят информация за разпределението на данните, която може да се използва, за да се направят изводи за популацията, от която са взети данните. В този блог ще обсъдим четири мерки за променливост и разпространение: диапазон, интерквартилен диапазон, дисперсия и стандартно отклонение. Ще предоставим и примери, за да илюстрираме как тези мерки могат да се използват на практика.

Диапазон:

Диапазонът е проста мярка за променливост, която представлява разликата между най-голямата и най-малката стойност в набор от данни. Лесен е за изчисляване, но има ограничение, че е чувствителен към екстремни стойности в набора от данни. Тоест, ако даден набор от данни има една или повече екстремни стойности (отклонения), диапазонът може да е много голям, дори ако останалите стойности са плътно групирани.

Пример: Да предположим, че имаме набор от данни от тестови резултати от 10 ученици: 70, 72, 75, 78, 80, 82, 85, 88, 90 и 95. Диапазонът на тези резултати е 25 (95–70).

Интерквартилен диапазон:

Интерквартилен диапазон (IQR) е мярка за променливост, която представлява разпространението на средните 50% от данните. Изчислява се като разликата между 75-ия персентил (Q3) и 25-ия персентил (Q1) на набора от данни. Тази мярка е по-малко чувствителна към екстремни стойности от диапазона и е по-стабилна мярка за дисперсия.

Пример:Да предположим, че имаме набор от данни за броя часове сън на нощ за 10 души: 5, 6, 6, 7, 7, 7, 8, 8, 9 и 10. 25-ият персентил (Q1) е 6, а 75-ият персентил (Q3) е 8. Следователно IQR е 2 (8–6).

Разлика:

Дисперсията е мярка за променливост, която представлява средната стойност на квадратите на разликите на всяка стойност от „средната стойност“ на набора от данни. Той предоставя информация за разпространението на данните от „средната стойност“ и е полезен за описване на разпределението на съвкупност.

Пример: Да предположим, че имаме набор от данни за ръстовете (в см) на 10 души: 150, 155, 160, 165, 170, 175, 180, 185, 190 и 195. Средната стойност от тези височини е 170. Дисперсията на тези височини е:

((150–170)² + (155–170)² + … + (195–170)²) / 10 = 375

Стандартно отклонение:

Стандартното отклонение е мярка за променливост, която представлява корен квадратен от дисперсията. Той е полезен, защото има същите единици като данните и е лесно интерпретируем. Малко стандартно отклонение показва, че данните са плътно групирани около „средната стойност“, докато голямо стандартно отклонение показва, че данните са по-разпръснати.

Пример: Продължавайки с предишния пример, стандартното отклонение на височините е:

sqrt(375) ≈ 19,36

Заключение:

В обобщение, променливостта и разпространението са важни понятия в статистиката, които предоставят информация за разпространението на набор от данни. Диапазон, интерквартилен диапазон, дисперсия и стандартно отклонение са четири често използвани мерки за променливост и разпространение. Диапазонът е лесен за изчисляване, но чувствителен към отклонения, докато интерквартилният диапазон е по-стабилен към отклонения. Дисперсията и стандартното отклонение предоставят информация за разпространението на данните от „средната стойност“ и са полезни за описване на разпределението на съвкупността.