Вероятността и статистиката формират основата на Data Science. Теорията на вероятностите е много полезна за правене на прогнози. Оценките и прогнозите са важна част от науката за данните. С помощта на статистически методи правим оценки за по-нататъшен анализ. По този начин статистическите методи до голяма степен зависят от теорията на вероятностите. И всички вероятности и статистики зависят от данните.

Данни

Данните са събраната информация (наблюдения), която имаме за нещо или факти и статистически данни, събрани заедно за справка или анализ.

Данни — колекция от факти (числа, думи, измервания, наблюдения и т.н.), които са преведени във форма, която компютрите могат да обработват

Защо данните имат значение?

  • Помага да се разбере повече за данните чрез идентифициране на връзки, които може да съществуват между 2 променливи.
  • Помага при прогнозиране на бъдещето или прогнозиране въз основа на предишна тенденция на данни.
  • Помага при определяне на модели, които може да съществуват между данните.
  • Помага при откриване на измами чрез разкриване на аномалии в данните.

Данните са от голямо значение в днешно време, тъй като можем да извлечем важна информация от тях. Сега нека да разгледаме как се категоризират данните. Данните могат да бъдат от 2 вида категориални и числови данни. Например в банка имаме региони, професионална класа, пол, които следват категорични данни, тъй като данните са в рамките на определена фиксирана стойност и баланс, кредитен рейтинг, възраст, месеци на мандат следват цифрово непрекъснато разпределение, тъй като данните могат да следват неограничен диапазон от стойности .

Забележка: Категоричните данни могат да бъдат визуализирани чрез стълбовидна диаграма, кръгова диаграма, Диаграма на Парето. Числените данни могат да бъдат визуализирани чрез хистограма, линейна диаграма, точкова диаграма

Описателна статистика

Описателната статистика е обобщена статистика, която количествено описва или обобщава характеристиките на колекция от информация. Помага ни да познаваме по-добре нашите данни. Използва се за описание на характеристиките на данните.

Ниво на измерване на данни

Качествените и количествените данни са много подобни на горните категорични и числени данни.

Номинално: Данните на това ниво се категоризират с помощта на имена, етикети или качества. напр.: Име на марката, пощенски код, пол.

Поредни: Данните на това ниво могат да бъдат подредени по ред или класирани и могат да бъдат сравнявани. напр.: Оценки, Отзиви със звезди, Позиция в състезанието, Дата

Интервал: Данните на това ниво могат да бъдат подредени, тъй като са в диапазон от стойности и могат да бъдат изчислени значими разлики между точките от данни. напр.: температура в Целзий, година на раждане

Съотношение: Данните на това ниво са подобни на интервалното ниво с добавено свойство на присъща нула. Върху тези точки от данни могат да се извършват математически изчисления. например: височина, възраст, тегло

Вижте това: ДАННИ | Махрита Харахап

Популация или примерни данни

Преди да извършим какъвто и да е анализ на данни, трябва да определим дали данните, с които работим, са популация или извадка.

Популация:Колекция от всички елементи (N) и включва всяка единица от нашето изследване. Трудно е да се дефинира и мярката на характеристика като средна стойност, режим се нарича параметър.

Извадка:Подмножество от съвкупността (n) и включва само няколко единици от популацията. Избира се на случаен принцип и мярката на характеристиката се нарича статистика.

Например, кажете, че искате да знаете средния доход на абонатите на услуга за абонамент за филми (параметър). Изготвяме произволна извадка от 1000 абонати и определяме, че техният среден доход (x̄) е $34 500 (статистически). Заключаваме, че средният доход на населението (μ) вероятно също ще бъде близо до $34 500.

Сега, преди да разгледаме разпределението на данни. Нека да разгледаме мерките за данни.

Мерки за централна тенденция

Мярката за централна тенденция е единична стойност, която се опитва да опише набор от данни чрез идентифициране на централната позиция в този набор от данни. Като такива, мерките за централна тенденция понякога се наричат ​​мерки за централно местоположение. Те също се класифицират като обобщени статистики.

Средна стойност: Средната стойност е равна на сумата от всички стойности в набора от данни, разделена на броя стойности в набора от данни, т.е. изчислената средна стойност. Податлив на отклонения когато се добавят необичайни стойности, той се изкривява, т.е. се отклонява от типичната централна стойност.

Медиана: Медианата е средната стойност за набор от данни, който е подреден по големина. Медианата е по-добра алтернатива на средната стойност, тъй като е по-малко засегната от отклонения и неравности на данните. Средната стойност е много по-близка от типичната централна стойност.

Ако общият брой стойности е нечетен тогава

Ако общият брой стойности е четен, тогава

Режим:Режимът е най-често срещаната стойност в набора от данни. Поради това режимът може понякога да счита режима за най-популярната опция.

Например в набор от данни, съдържащ {13,35,54,54,55,56,57,67,85,89,96} стойности. Средната стойност е 60,09. Медианата е 56. Режимът е 54.

Мерки за асиметрия

Изкривяване:Изкривяването е асиметрията в статистическо разпределение, при което кривата изглежда изкривена или изкривена наляво или надясно. Изкривеността показва дали данните са концентрирани от едната страна.

Положителна асиметрия:Положителна асиметрия е, когато режимът на средната›медиана›. Извънредните стойности са изкривени надясно, т.е. опашката е изкривена надясно.

Отрицателна асимметрия:Отрицателна асимметрия е, когато режимът на средната‹медиана‹. Извънредните стойности са изкривени наляво, т.е. опашката е изкривена наляво.

Изкривеността е важна, тъй като ни казва къде се разпространяват данните.

Например: Глобалното разпределение на доходите през 2003 г. е силно изкривено надясно. Можем да видим, че средните $3451 през 2003 г. (зелено) са по-големи от средните $1090. Това предполага, че глобалният доход не е равномерно разпределен. Доходите на повечето хора са под 2000 долара и по-малък брой хора с доход над 14 000 долара, така че неравномерността. Но изглежда през 2035 г. според прогнозата неравенството в доходите ще намалее с времето.

Мерки за променливост (дисперсия)

Мярката на централната тенденция дава единична стойност, която представлява цялата стойност; централната тенденция обаче не може да опише напълно наблюдението. Мярката за дисперсия ни помага да изследваме променливостта на елементите, т.е. разпространението на данни.

Запомнете: Данните за популацията имат N точки от данни, а данните от извадката имат (n-1) точки от данни. (n-1) се нарича корекция на Бесел и се използва за намаляване на отклонението.

Диапазон: Разликата между най-голямата и най-малката стойност на данните се нарича диапазон на разпределението. Диапазонът не взема предвид всички стойности на серия, т.е. взема само екстремните елементи, а средните елементи не се считат за значими. напр.: За {13,33,45,67,70} диапазонът е 57 т.е.(70–13).

Дисперсия:Дисперсията измерва колко далеч е сумата от квадратите на разстоянията от всяка точка до средната стойност, т.е. дисперсията около средната стойност.

Дисперсията е средната стойност на всички квадратни отклонения.

Забележка: Единиците за стойности и дисперсия не са равни, затова използваме друга мярка за променливост.

Стандартно отклонение:Тъй катовариацията страда от разликата в единиците, така че се използва стандартното отклонение. Корен квадратен от дисперсията е стандартното отклонение. Той разказва за концентрацията на данните около средната стойност на набора от данни.

Например: {3,5,6,9,10} са стойностите в набор от данни.

Коефициент на вариация (CV): Нарича се още относително стандартно отклонение. Това е съотношението на стандартното отклонение към средната стойност на набора от данни.

Стандартното отклонение е променливостта на един набор от данни. Докато коефициентът на дисперсия може да се използва за сравняване на 2 набора от данни.

От горния пример можем да видим, че CV-то е същото. И двата метода са точни. Така че е идеален за сравнения.

Мерки на квартилите

Квартилите са по-добри за разбиране като всяка точка от данни.

Проверете моята предишна публикация — В Boxplot Секция разработих квартилите.

Мерки за връзка

Използват се мерки за връзка, за да се намери сравнението между 2 променливи.

Ковариация:Ковариацията е мярка за връзката между променливостта на 2 променливи, т.е. тя измерва степента на промяна в променливите, когато една променлива се промени, ще има ли същата/подобна промяна в другата променлива.

Ковариацията не дава ефективна информация за връзката между 2 променливи, тъй като не е нормализирана.

Корелация:Корелацията дава по-добро разбиране на ковариацията. Това е нормализирана ковариация. Корелацията ни казва колко корелирани са променливите помежду си. Нарича се още корелационен коефициент на Пиърсън.

Стойността на корелацията варира от -1 до 1. -1 показва отрицателна корелация, т.е. с увеличение на 1 независима променлива има намаление на другата зависима променлива. 1 показва положителна корелация, т.е. с увеличение на 1 независима променлива има увеличение в другата зависима променлива.0 показва, че променливите са независими една от друга.

Например,

Корелация 0,889 ни казва, че височината и теглото имат положителна корелация. Очевидно е, че с увеличаването на височината на човек теглото също се увеличава.

Забележка: Корелацията не предполага причинно-следствена връзка, Филшива корелация за някои странни корелации.

Заключение

В тази статия научихме за описателната статистика, която ни помага да знаем по-добре за нашите данни чрез разбиране на ключови характеристики в набор от данни.