Дисперсията се използва за определяне на несигурността в данните или за да се види дали информацията е разпръсната. Това предполага, най-общо, липсата на еднаквост в размера на поредица от елементи. Когато дисперсията или липсата на еднаквост в размера на елементите в последователност е голяма, дисперсията се счита за значителна. Когато дисперсията е ниска, повечето точки от данни са близо до типичната стойност, централната тенденция е по-надеждна или по-отразяваща данните, което води до ниска дисперсия и обратно.

Как може да се преведе тази променливост в разпределението в някои подходящи описателни статистики? За да анализираме нашите данни, нека преминем през някои от тези дескриптори:

Обхват

Разликата между най-голямата и най-малката стойност се дава от диапазона на набор от данни. Следователно диапазонът взема предвид само двете най-крайни стойности и казва малко за точките от данни, които попадат между тях.

Диапазон =Максимална стойност -Минимална стойност

Диапазонът е много уязвим към отклонения. Диапазонът се влияе от размера на набора от данни. Следователно обхватът продължава да расте, когато размерът на извадката продължава да се увеличава, когато изтегляте произволни извадки от същата популация. Само когато размерите на извадката са еквивалентни, трябва да се използва диапазонът за сравняване на променливостта.

Квартили

Данните са разделени от квартили на четвърти. Първият квартил, Q1, е равен на 25-ия персентил, а третият, Q3, е равен на 75-ия персентил. Вторият квартил, Q2, и 50-ият персентил се наричат ​​медиана.

Квартилните стойности не принадлежат непременно към набора от данни.

Интерквартилен диапазон (IQR)

IQR е число, отразяващо как се разпределя средната половина на набора от данни (т.е. средните 50 процента) и може да помогне за определяне на отклонения. Интерквартилният диапазон е изчисление на това къде в набора от данни е „средните петдесет“. Интерквартилният диапазон е мярка за това къде се намират по-голямата част от стойностите, където диапазонът е мярка за това къде са началото и краят в набора.

Интерквартилен диапазон= Q3-Q1

IQR не се влияе силно от екстремни стойности.

Средно абсолютно отклонение

Изчислението на дисперсията (или отклонението) от средната стойност ни дава средното отклонение. Резултатът на средното отклонение би бил малък, ако повечето стойности на данните са много близки до средните, което предполага голямо сходство в рамките на данните. Средният резултат за отклонение ще бъде висок, ако има голяма дисперсия, предполагаща ниско сходство между точките от данни.

Може да има повече смисъл да разглеждаме тази формула като процедура или последователност от мерки, които можем да използваме, за да получим нашата статистика:

Започваме със средна стойност на набор от данни или централно измерване, което ще обозначим с m. Първо, намираме доколко всяка от стойностите на данните се отклонява от m. Това означава, че вземаме разликата между всяка от стойностите на данните и m. След това се взема абсолютната стойност на всяка от разликите от предишната стъпка. С други думи, за всички разграничения губим всички отрицателни знаци. Теорията зад това е, че има положителни и отрицателни вариации от m. Ако не изработим начин да премахнем отрицателните знаци, всички отклонения ще се компенсират взаимно при сумиране. Всички тези абсолютни стойности се събират заедно.

Накрая разделяме тази сума на n, което е общият брой стойности на данните.

Разлика

Дисперсията е числена стойност, която показва колко широко средната стойност се разпространява от отделните цифри в набор от данни и по този начин определя разликата между всяка стойност в набора от данни и средната стойност. За разлика от предишните стъпки за променливост, когато сравнявате всяка стойност със средната стойност, дисперсията съдържа всички стойности в оценката. Изчислявате набор от квадратни разлики между точките от данни и средната стойност, за да изчислите тази цифра, преброявате ги и след това ги разделяте на броя наблюдения.

Дисперсията никога не може да бъде отрицателна. В зависимост от това дали оценявате дисперсията за цяла съвкупност или използвате извадка за измерване на дисперсията на съвкупността, има две формули за дисперсия.

Вариация на населението

Това позволява да се посочи как са разпределени точките от данни в популацията. За един и същ набор от данни вариацията на популацията е нула и остава непроменена, ако към нея се въведе постоянна стойност.

σ2 е параметърът на популацията за дисперсията в уравнението, μ е параметърът на средната популация и N е броят на точките от данни, който включва цялата популация.

За един и същ набор от данни вариацията на популацията е нула и остава непроменена, ако към нея се въведе постоянна стойност.

Дисперсия на пробата

Дисперсията на извадката се измерва по същия начин като вариацията на съвкупността.

Единствената разлика е, че използваме само определени стойности на извадкови данни от набора от данни за популацията, за да измерим дисперсията на извадката.

В уравнението s2 е дисперсията на извадката, а M е средната стойност на извадката. В знаменателя N-1 коригира склонността на извадката да подценява дисперсията на популацията.

Стандартно отклонение

Мярка за това как всяка стойност в набор от данни се различава от средната стойност се дава чрез стандартното отклонение на набор от данни. Това е доста подобно на средното отклонение и наистина по същество ни дава много подобни подробности. Стандартното отклонение удобно използва оригиналните единици на данните, което прави анализа много по-прост. Стандартното отклонение също е най-често използваният показател за променливост.

Нека xi е наблюдаваната стойност на точките от данни, x е средната стойност и N е общият брой точки от данни.

Стандартното отклонение е много важно, защото нормалното разпределение или разпределението на Гаус ни помага да определим количествено вероятността точка от данни да се появи извън набор от данни.