Вероятността и статистиката формират основата на Data Science. Теорията на вероятностите е много полезна за правене на прогнози. Оценките и прогнозите са важна част от науката за данните. С помощта на статистически методи правим оценки за по-нататъшен анализ. По този начин статистическите методи до голяма степен зависят от теорията на вероятностите. И всички вероятности и статистики зависят от данните.
Данни
Данните са събраната информация (наблюдения), която имаме за нещо или факти и статистически данни, събрани заедно за справка или анализ.
Данни — колекция от факти (числа, думи, измервания, наблюдения и т.н.), които са преведени във форма, която компютрите могат да обработват
Защо данните имат значение?
- Помага да се разбере повече за данните чрез идентифициране на връзки, които може да съществуват между 2 променливи.
- Помага при прогнозиране на бъдещето или прогнозиране въз основа на предишна тенденция на данни.
- Помага при определяне на модели, които може да съществуват между данните.
- Помага при откриване на измами чрез разкриване на аномалии в данните.
Данните са от голямо значение в днешно време, тъй като можем да извлечем важна информация от тях. Сега нека да разгледаме как се категоризират данните. Данните могат да бъдат от 2 вида категориални и числови данни. Например в банка имаме региони, професионална класа, пол, които следват категорични данни, тъй като данните са в рамките на определена фиксирана стойност и баланс, кредитен рейтинг, възраст, месеци на мандат следват цифрово непрекъснато разпределение, тъй като данните могат да следват неограничен диапазон от стойности .
Забележка: Категоричните данни могат да бъдат визуализирани чрез стълбовидна диаграма, кръгова диаграма, Диаграма на Парето. Числените данни могат да бъдат визуализирани чрез хистограма, линейна диаграма, точкова диаграма
Описателна статистика
Описателната статистика е обобщена статистика, която количествено описва или обобщава характеристиките на колекция от информация. Помага ни да познаваме по-добре нашите данни. Използва се за описание на характеристиките на данните.
Ниво на измерване на данни
Качествените и количествените данни са много подобни на горните категорични и числени данни.
Номинално: Данните на това ниво се категоризират с помощта на имена, етикети или качества. напр.: Име на марката, пощенски код, пол.
Поредни: Данните на това ниво могат да бъдат подредени по ред или класирани и могат да бъдат сравнявани. напр.: Оценки, Отзиви със звезди, Позиция в състезанието, Дата
Интервал: Данните на това ниво могат да бъдат подредени, тъй като са в диапазон от стойности и могат да бъдат изчислени значими разлики между точките от данни. напр.: температура в Целзий, година на раждане
Съотношение: Данните на това ниво са подобни на интервалното ниво с добавено свойство на присъща нула. Върху тези точки от данни могат да се извършват математически изчисления. например: височина, възраст, тегло
Вижте това: ДАННИ | Махрита Харахап
Популация или примерни данни
Преди да извършим какъвто и да е анализ на данни, трябва да определим дали данните, с които работим, са популация или извадка.
Популация:Колекция от всички елементи (N) и включва всяка единица от нашето изследване. Трудно е да се дефинира и мярката на характеристика като средна стойност, режим се нарича параметър.
Извадка:Подмножество от съвкупността (n) и включва само няколко единици от популацията. Избира се на случаен принцип и мярката на характеристиката се нарича статистика.
Например, кажете, че искате да знаете средния доход на абонатите на услуга за абонамент за филми (параметър). Изготвяме произволна извадка от 1000 абонати и определяме, че техният среден доход (x̄) е $34 500 (статистически). Заключаваме, че средният доход на населението (μ) вероятно също ще бъде близо до $34 500.
Сега, преди да разгледаме разпределението на данни. Нека да разгледаме мерките за данни.
Мерки за централна тенденция
Мярката за централна тенденция е единична стойност, която се опитва да опише набор от данни чрез идентифициране на централната позиция в този набор от данни. Като такива, мерките за централна тенденция понякога се наричат мерки за централно местоположение. Те също се класифицират като обобщени статистики.
Средна стойност: Средната стойност е равна на сумата от всички стойности в набора от данни, разделена на броя стойности в набора от данни, т.е. изчислената средна стойност. Податлив на отклонения когато се добавят необичайни стойности, той се изкривява, т.е. се отклонява от типичната централна стойност.
Медиана: Медианата е средната стойност за набор от данни, който е подреден по големина. Медианата е по-добра алтернатива на средната стойност, тъй като е по-малко засегната от отклонения и неравности на данните. Средната стойност е много по-близка от типичната централна стойност.
Ако общият брой стойности е нечетен тогава
Ако общият брой стойности е четен, тогава
Режим:Режимът е най-често срещаната стойност в набора от данни. Поради това режимът може понякога да счита режима за най-популярната опция.
Например в набор от данни, съдържащ {13,35,54,54,55,56,57,67,85,89,96} стойности. Средната стойност е 60,09. Медианата е 56. Режимът е 54.
Мерки за асиметрия
Изкривяване:Изкривяването е асиметрията в статистическо разпределение, при което кривата изглежда изкривена или изкривена наляво или надясно. Изкривеността показва дали данните са концентрирани от едната страна.
Положителна асиметрия:Положителна асиметрия е, когато режимът на средната›медиана›. Извънредните стойности са изкривени надясно, т.е. опашката е изкривена надясно.
Отрицателна асимметрия:Отрицателна асимметрия е, когато режимът на средната‹медиана‹. Извънредните стойности са изкривени наляво, т.е. опашката е изкривена наляво.
Изкривеността е важна, тъй като ни казва къде се разпространяват данните.
Например: Глобалното разпределение на доходите през 2003 г. е силно изкривено надясно. Можем да видим, че средните $3451 през 2003 г. (зелено) са по-големи от средните $1090. Това предполага, че глобалният доход не е равномерно разпределен. Доходите на повечето хора са под 2000 долара и по-малък брой хора с доход над 14 000 долара, така че неравномерността. Но изглежда през 2035 г. според прогнозата неравенството в доходите ще намалее с времето.
Мерки за променливост (дисперсия)
Мярката на централната тенденция дава единична стойност, която представлява цялата стойност; централната тенденция обаче не може да опише напълно наблюдението. Мярката за дисперсия ни помага да изследваме променливостта на елементите, т.е. разпространението на данни.
Запомнете: Данните за популацията имат N точки от данни, а данните от извадката имат (n-1) точки от данни. (n-1) се нарича корекция на Бесел и се използва за намаляване на отклонението.
Диапазон: Разликата между най-голямата и най-малката стойност на данните се нарича диапазон на разпределението. Диапазонът не взема предвид всички стойности на серия, т.е. взема само екстремните елементи, а средните елементи не се считат за значими. напр.: За {13,33,45,67,70} диапазонът е 57 т.е.(70–13).
Дисперсия:Дисперсията измерва колко далеч е сумата от квадратите на разстоянията от всяка точка до средната стойност, т.е. дисперсията около средната стойност.
Дисперсията е средната стойност на всички квадратни отклонения.
Забележка: Единиците за стойности и дисперсия не са равни, затова използваме друга мярка за променливост.
Стандартно отклонение:Тъй катовариацията страда от разликата в единиците, така че се използва стандартното отклонение. Корен квадратен от дисперсията е стандартното отклонение. Той разказва за концентрацията на данните около средната стойност на набора от данни.
Например: {3,5,6,9,10} са стойностите в набор от данни.
Коефициент на вариация (CV): Нарича се още относително стандартно отклонение. Това е съотношението на стандартното отклонение към средната стойност на набора от данни.
Стандартното отклонение е променливостта на един набор от данни. Докато коефициентът на дисперсия може да се използва за сравняване на 2 набора от данни.
От горния пример можем да видим, че CV-то е същото. И двата метода са точни. Така че е идеален за сравнения.
Мерки на квартилите
Квартилите са по-добри за разбиране като всяка точка от данни.
Проверете моята предишна публикация — В Boxplot Секция разработих квартилите.
Мерки за връзка
Използват се мерки за връзка, за да се намери сравнението между 2 променливи.
Ковариация:Ковариацията е мярка за връзката между променливостта на 2 променливи, т.е. тя измерва степента на промяна в променливите, когато една променлива се промени, ще има ли същата/подобна промяна в другата променлива.
Ковариацията не дава ефективна информация за връзката между 2 променливи, тъй като не е нормализирана.
Корелация:Корелацията дава по-добро разбиране на ковариацията. Това е нормализирана ковариация. Корелацията ни казва колко корелирани са променливите помежду си. Нарича се още корелационен коефициент на Пиърсън.
Стойността на корелацията варира от -1 до 1. -1 показва отрицателна корелация, т.е. с увеличение на 1 независима променлива има намаление на другата зависима променлива. 1 показва положителна корелация, т.е. с увеличение на 1 независима променлива има увеличение в другата зависима променлива.0 показва, че променливите са независими една от друга.
Например,
Корелация 0,889 ни казва, че височината и теглото имат положителна корелация. Очевидно е, че с увеличаването на височината на човек теглото също се увеличава.
Забележка: Корелацията не предполага причинно-следствена връзка, Филшива корелация за някои странни корелации.
Заключение
В тази статия научихме за описателната статистика, която ни помага да знаем по-добре за нашите данни чрез разбиране на ключови характеристики в набор от данни.