Въведение:

Статистиката е градивният елемент за науката за данни и е важно за специалиста по данни да я владее. Ученето и оставането на ниво е досадна задача и е нещо, с което учените по данни се борят. Тази статия е предназначена за хора, които се запознават с науката за данните и се нуждаят от преглед. За други това може да бъде опресняване на основите. Чувствайте се свободни да маркирате тази връзка и да се връщате към нея, когато е необходимо, ако я намерите за полезна. Нека започнем.

Извънредни стойности:

Извънредните стойности могат да бъдат определени като стойности, които попадат извън нормалния диапазон. Например в серията: 4,7,19,999,8,14, 999 ще бъде отклонението. Анализаторът решава дали стойността е отклонение или не за определен набор от данни.

режим:

Режимът може да се дефинира като най-често срещаната стойност в разпределението.

В серията 5,10,5,6,8,3,21 ,5 е режимът, тъй като се среща най-много пъти (два пъти).

Всички стойности не са важни за даден режим, тъй като трябва да проверим само честотата на появяване на числата, което също е причината, поради която режимът е устойчив на отклонения. Да кажем, че добавим 900 към серията 5,10,5,6,8,3,21,900, режимът остава същият. Режимът обикновено се използва за категорични променливи, подобно на примера по-долу.

Нека разгледаме разпределението на 5 цветни топки: червено, червено, зелено, синьо, червено

Тук Червеното е режимът, тъй като се среща най-често, т.е. 3 пъти.

Една дистрибуция може да има 1 или повече от един режим. Едномодовото разпределение е унимодално, двумодовото разпределение е бимодално, а разпределението с много режими е мултимодално разпределение.

Означава:

Средната стойност е средната стойност на числата в разпределение или най-общо казано:

Средно = (Сума от термини)/(брой термини)

Средната стойност е чувствителна към отклонения, поради което не е много стабилна мярка.

Пример: Нека разгледаме предишното разпределение

  1. Без отклонение: 5,10,5,6,8,3,21, средно = 58/7 = 8,29
  2. С отклонение: 5,10,6,8,3,21,900,5 средно = 958/8 = 119,75.

Както се вижда в примера по-горе, добавянето на отклонения може драстично да промени средната стойност. Средната стойност обикновено се използва за непрекъснати променливи.

Медиана:

Медианата може да се дефинира като абсолютната централна стойност на числово разпределение, сортирано във възходящ ред. Медианата за серия с нечетна дължина е най-средният елемент, а за серия с четна дължина това е средната стойност на средните два елемента

Примери:

  1. 3,5,5,6,8,10,21. Тук дължината на серията е нечетна и средният елемент е 6, така че 6 е медианата.
  2. 3,5,5,6,8,10,21,900. Тук дължината на серията е четна и средните елементи са 6 и 8, така че средната стойност на 6 & 8, т.е. 7 е медианата.

Можем също да забележим от горните примери, че добавянето на отклонение във втория пример не е повлияло на средната стойност. По този начин медианата може да се използва като по-стабилна алтернатива на средната стойност

Медианата обикновено се използва и за непрекъснати променливи.

Квантил и квартил:

Квантилът е произволна точка от данни, докато квартилите са стойности, разделящи набора от данни на четвъртини. Въпреки че ще се занимаваме с квартили най-вече, докато работим върху проблем с данни, по-добре е да разберем разликата между двете и да изчистим объркването.

Медианата разделя набора от данни на 2 части. Медианата на данните вляво от медианата е 1-ви квартил, а тази вдясно от средната стойност е 3-ти квартил на разпределението. Това може ясно да се разбере с примера по-долу:

Квартилите и други важни стойности могат да бъдат представени чрез квадратна диаграма, както е показано по-долу:

Разпространение на данни:

Може да се наложи да проверим колко сходни или разнообразни са нашите наблюдения, докато работим по проект за наука за данни. Има 2 мерки за изчисляване на това:

  1. Диапазон: Това е разликата между максималните и минималните стойности. То е правопропорционално на разпространението на данните. Диапазонът е чувствителен към отклонения
  2. Интерквартилен диапазон (IQR): Това е разликата между 3-ти квартил и 1-ви квартил. Той е стабилен спрямо отклоненията, тъй като взема предвид квартилите, които, както знаем, са получени от медианите, които са устойчиви спрямо отклоненията

Обърнете внимание, че използваме подобен подход за изчисляване на квартилите, както беше описано по-горе.

Пример:

  1. Без отклонение: 3,5,5,6,8,10,21

Квартил 1: 5

Квартил 2 (медиана): 6

Квартил 3: 10

Диапазон: 21–3 = 18

IQR: 10–5 = 5

2. С отклонение: 3,5,5,6,8,10,21,900

Квартил 1: 5

Квартил 2 (медиана): (6+8)/2 = 7

Квартил 3: 21

Диапазон: 900–3 = 897

IQR: 21–5 = 16

3. Дисперсията и стандартното отклонение също могат да се използват за измерване на разпространението на данните. Ще ги разгледаме по-късно в тази статия.

По-долу има съдържание, показващо мерките и тяхната чувствителност към отклонения.

Дисперсия и стандартно отклонение:

Нека да разгледаме дефинициите в Уикипедия и за двата термина

Дисперсия: Очакването на квадратното отклонение на случайна променлива от нейната средна стойност. Неформално, той измерва доколко набор от (случайни) числа е разпръснат от средната им стойност.

Стандартно отклонение: Мярка за степента на вариация или дисперсия на набор от стойности. Ниско стандартно отклонение показва, че стойностите са склонни да бъдат близки до средната стойност на набора, докато високо стандартно отклонение показва, че стойностите са разпръснати в по-широк диапазон.

По-долу са формулите:

Ние използваме квадрати на отклонение за дисперсия, за да гарантираме, че отклонението над и под средната стойност не се анулира взаимно, това може да се разбере от малкия пример по-долу

Като добавим абсолютните разлики между отклоненията, получаваме: -5+0+5 = 0.

Като добавим квадрат на разликата на отклонението от средната стойност, получаваме: 25+0+25 = 50.

Допълнителното предимство е, че наказваме силно отклоненията. Въпреки това, поради повдигането на квадрат, дисперсията не е в същата мерна единица като оригиналните данни. Това е причината, поради която обикновено използваме стандартно отклонение, корен квадратен от дисперсията за изчислителни цели.

Заключение:

В тази статия разгледахме някои основи на описателната статистика, надяваме се, че сте харесали. Не съм разгледал частта, включваща теоремата за централната граница и Z-резултатите, която възнамерявам да разгледам в по-късна статия, заедно с някои концепции за вероятностите. Дотогава, Сайонара!