Моето пътешествие в областта на науката за данни с @10Alytics, @Ikpoefemena и @Adeiza Suleman беше изключително феноменално. Изключително съм щастлив, че направих стъпката към изучаването на Data Science, което е един отличен начин за решаване на вечни проблеми, пред които е изправен светът във всеки аспект на неговото начинание. Всички се сблъскваме с данни и използването им всяка минута от деня. Вариращи от това колко хора са покровителствали вашия малък до голям бизнес вчера в сравнение с този днес, броят хора, които са посетили Facebook на ден, количеството на валежите на месец и много други. В опит да подобря разбирането за това как се анализират данните, избрах да пиша за мярката на асиметрията.

Просто казано, мярката за асиметрия е начинът, по който елементите в набор от данни са групирани около средната стойност. Перфектно балансираното групиране от двете страни на средната стойност показва симетрично разпределение, в противен случай е асиметрично разпределение.

Преди да се потопим наистина дълбоко в тази тема, е от голямо значение да прегледаме това, което обикновено е известно като средна стойност, медиана и мода (известно още като мярка на централните тенденции), тъй като те ще помогнат за разбирането на действителната тема.

Среднопросто означава средно. Означава се с µ за популация и за извадка. Има формулата.

Въпреки че това е най-често срещаната мярка за централна тенденция, тя все пак се влияе от отклонения. Това го прави недостатъчно, за да се направи категорично заключение.

Медианата от друга страна е просто числото в средата на подреден (във възходящ ред) набор от данни. Медианата се изчислява по този начин (n+1/2), n е броят на наблюденията. За разлика от средната стойност, медианата не се влияе от отклоненията.

Режим е най-честата стойност (т.е. стойността, която се появява най-често). Той е единственият от трите, който може да се използва както за числени, така и за категорични типове данни.

Най-добрата практика е измерването на централните тенденции да се използва заедно, а не поотделно, за да се получи по-точен резултат.

Мярка на централните тенденции (средна стойност, медиана и мода)

Сега да се върнем към основната ни точка на обсъждане, мярка за асиметрия.

Изкривеността е най-използваният инструмент за измерване на асиметрия. Това означава колко концентрирани са стойностите или наблюденията в набор от данни от едната страна от другата. Изкривеността има формулата:

Както беше посочено по-рано, обикновено има два вида разпределение (симетрично и асиметрично разпределение).

За набор от данни се казва, че е симетричен, когато има равни средна стойност, медиана и мода. Това също се казва, че има нулево или никакво изкривяване.

Асиметрично разпределение (изкривено разпределение)

Видове асиметрично разпределение

Положително изкривяване, което също се нарича дясно изкривяване, възниква, когато средната стойност е по-голяма от медианата, като режимът е стойността с най-високо визуално представяне. Това също означава, че отклоненията са отдясно, което означава, че стойностите са по-концентрирани от лявата страна на режима.

Отрицателно изкривяване, известно още като ляво изкривяване, възниква, когато средната стойност е по-малка от медианата. В този случай отклоненията са вляво.

Средна стойност ‹ медиана ‹ средна стойност на режим = медиана = средна стойност на режим › медиана › режим

Диаграма, показваща различните видове изкривяване

ЗАБЕЛЕЖКА: посоката на изкривяването зависи от това към коя страна е наклонена опашката му, а не към страната, към която е наклонена линията.

*Отклонения:отклонението е точка от данни, която се различава значително от други наблюдения. Те са изключително ниски или изключително високи стойности, които причиняват грешка при анализа на набор от данни.