Вероятност и статистика за науката за данни, част-1

Вероятността и статистиката формират основата на Data Science. Теорията на вероятностите е много полезна за правене на прогнози. Оценките и прогнозите са важна част от науката за данните. С помощта на статистически методи правим оценки за по-нататъшен анализ. По този начин статистическите методи до голяма степен зависят от теорията на вероятностите. И всички вероятности и статистики зависят от данните.

Данни

Данните са събраната информация (наблюдения), която имаме за нещо или факти и статистически данни, събрани заедно за справка или анализ.

Данни — колекция от факти (числа, думи, измервания, наблюдения и т.н.), които са преведени във форма, която компютрите могат да обработват

Защо данните имат значение?

Помага да се разбере повече за данните чрез идентифициране на връзки, които може да съществуват между 2 променливи.
Помага при прогнозиране на бъдещето или прогнозиране въз основа на предишна тенденция на данни.
Помага при определяне на модели, които може да съществуват между данните.
Помага при откриване на измами чрез разкриване на аномалии в данните.

Данните са от голямо значение в днешно време, тъй като можем да извлечем важна информация от тях. Сега нека да разгледаме как се категоризират данните. Данните могат да бъдат от 2 вида категориални и числови данни. Например в банка имаме региони, професионална класа, пол, които следват категорични данни, тъй като данните са в рамките на определена фиксирана стойност и баланс, кредитен рейтинг, възраст, месеци на мандат следват цифрово непрекъснато разпределение, тъй като данните могат да следват неограничен диапазон от стойности .

Забележка: Категоричните данни могат да бъдат визуализирани чрез стълбовидна диаграма, кръгова диаграма, Диаграма на Парето. Числените данни могат да бъдат визуализирани чрез хистограма, линейна диаграма, точкова диаграма

Описателна статистика

Описателната статистика е обобщена статистика, която количествено описва или обобщава характеристиките на колекция от информация. Помага ни да познаваме по-добре нашите данни. Използва се за описание на характеристиките на данните.

Ниво на измерване на данни

Качествените и количествените данни са много подобни на горните категорични и числени данни.

Номинално: Данните на това ниво се категоризират с помощта на имена, етикети или качества. напр.: Име на марката, пощенски код, пол.

Поредни: Данните на това ниво могат да бъдат подредени по ред или класирани и могат да бъдат сравнявани. напр.: Оценки, Отзиви със звезди, Позиция в състезанието, Дата

Интервал: Данните на това ниво могат да бъдат подредени, тъй като са в диапазон от стойности и могат да бъдат изчислени значими разлики между точките от данни. напр.: температура в Целзий, година на раждане

Съотношение: Данните на това ниво са подобни на интервалното ниво с добавено свойство на присъща нула. Върху тези точки от данни могат да се извършват математически изчисления. например: височина, възраст, тегло

Вижте това: ДАННИ | Махрита Харахап

Популация или примерни данни

Преди да извършим какъвто и да е анализ на данни, трябва да определим дали данните, с които работим, са популация или извадка.

Популация:Колекция от всички елементи (N) и включва всяка единица от нашето изследване. Трудно е да се дефинира и мярката на характеристика като средна стойност, режим се нарича параметър.

Извадка:Подмножество от съвкупността (n) и включва само няколко единици от популацията. Избира се на случаен принцип и мярката на характеристиката се нарича статистика.

Например, кажете, че искате да знаете средния доход на абонатите на услуга за абонамент за филми (параметър). Изготвяме произволна извадка от 1000 абонати и определяме, че техният среден доход (x̄) е $34 500 (статистически). Заключаваме, че средният доход на населението (μ) вероятно също ще бъде близо до $34 500.

Сега, преди да разгледаме разпределението на данни. Нека да разгледаме мерките за данни.

Мерки за централна тенденция

Мярката за централна тенденция е единична стойност, която се опитва да опише набор от данни чрез идентифициране на централната позиция в този набор от данни. Като такива, мерките за централна тенденция понякога се наричат мерки за централно местоположение. Те също се класифицират като обобщени статистики.

Средна стойност: Средната стойност е равна на сумата от всички стойности в набора от данни, разделена на броя стойности в набора от данни, т.е. изчислената средна стойност. Податлив на отклонения когато се добавят необичайни стойности, той се изкривява, т.е. се отклонява от типичната централна стойност.

Медиана: Медианата е средната стойност за набор от данни, който е подреден по големина. Медианата е по-добра алтернатива на средната стойност, тъй като е по-малко засегната от отклонения и неравности на данните. Средната стойност е много по-близка от типичната централна стойност.

Ако общият брой стойности е нечетен тогава

Ако общият брой стойности е четен, тогава

Режим:Режимът е най-често срещаната стойност в набора от данни. Поради това режимът може понякога да счита режима за най-популярната опция.

Например в набор от данни, съдържащ {13,35,54,54,55,56,57,67,85,89,96} стойности. Средната стойност е 60,09. Медианата е 56. Режимът е 54.

Мерки за асиметрия

Изкривяване:Изкривяването е асиметрията в статистическо разпределение, при което кривата изглежда изкривена или изкривена наляво или надясно. Изкривеността показва дали данните са концентрирани от едната страна.

Положителна асиметрия:Положителна асиметрия е, когато режимът на средната›медиана›. Извънредните стойности са изкривени надясно, т.е. опашката е изкривена надясно.

Отрицателна асимметрия:Отрицателна асимметрия е, когато режимът на средната‹медиана‹. Извънредните стойности са изкривени наляво, т.е. опашката е изкривена наляво.

Изкривеността е важна, тъй като ни казва къде се разпространяват данните.

Например: Глобалното разпределение на доходите през 2003 г. е силно изкривено надясно. Можем да видим, че средните $3451 през 2003 г. (зелено) са по-големи от средните $1090. Това предполага, че глобалният доход не е равномерно разпределен. Доходите на повечето хора са под 2000 долара и по-малък брой хора с доход над 14 000 долара, така че неравномерността. Но изглежда през 2035 г. според прогнозата неравенството в доходите ще намалее с времето.

Мерки за променливост (дисперсия)

Мярката на централната тенденция дава единична стойност, която представлява цялата стойност; централната тенденция обаче не може да опише напълно наблюдението. Мярката за дисперсия ни помага да изследваме променливостта на елементите, т.е. разпространението на данни.

Запомнете: Данните за популацията имат N точки от данни, а данните от извадката имат (n-1) точки от данни. (n-1) се нарича корекция на Бесел и се използва за намаляване на отклонението.

Диапазон: Разликата между най-голямата и най-малката стойност на данните се нарича диапазон на разпределението. Диапазонът не взема предвид всички стойности на серия, т.е. взема само екстремните елементи, а средните елементи не се считат за значими. напр.: За {13,33,45,67,70} диапазонът е 57 т.е.(70–13).

Дисперсия:Дисперсията измерва колко далеч е сумата от квадратите на разстоянията от всяка точка до средната стойност, т.е. дисперсията около средната стойност.

Дисперсията е средната стойност на всички квадратни отклонения.

Забележка: Единиците за стойности и дисперсия не са равни, затова използваме друга мярка за променливост.

Стандартно отклонение:Тъй катовариацията страда от разликата в единиците, така че се използва стандартното отклонение. Корен квадратен от дисперсията е стандартното отклонение. Той разказва за концентрацията на данните около средната стойност на набора от данни.

Например: {3,5,6,9,10} са стойностите в набор от данни.

Коефициент на вариация (CV): Нарича се още относително стандартно отклонение. Това е съотношението на стандартното отклонение към средната стойност на набора от данни.

Стандартното отклонение е променливостта на един набор от данни. Докато коефициентът на дисперсия може да се използва за сравняване на 2 набора от данни.

От горния пример можем да видим, че CV-то е същото. И двата метода са точни. Така че е идеален за сравнения.

Мерки на квартилите

Квартилите са по-добри за разбиране като всяка точка от данни.

Проверете моята предишна публикация — В Boxplot Секция разработих квартилите.

Мерки за връзка

Използват се мерки за връзка, за да се намери сравнението между 2 променливи.

Ковариация:Ковариацията е мярка за връзката между променливостта на 2 променливи, т.е. тя измерва степента на промяна в променливите, когато една променлива се промени, ще има ли същата/подобна промяна в другата променлива.

Ковариацията не дава ефективна информация за връзката между 2 променливи, тъй като не е нормализирана.

Корелация:Корелацията дава по-добро разбиране на ковариацията. Това е нормализирана ковариация. Корелацията ни казва колко корелирани са променливите помежду си. Нарича се още корелационен коефициент на Пиърсън.

Стойността на корелацията варира от -1 до 1. -1 показва отрицателна корелация, т.е. с увеличение на 1 независима променлива има намаление на другата зависима променлива. 1 показва положителна корелация, т.е. с увеличение на 1 независима променлива има увеличение в другата зависима променлива.0 показва, че променливите са независими една от друга.

Например,

Корелация 0,889 ни казва, че височината и теглото имат положителна корелация. Очевидно е, че с увеличаването на височината на човек теглото също се увеличава.

Забележка: Корелацията не предполага причинно-следствена връзка, Филшива корелация за някои странни корелации.

Заключение

В тази статия научихме за описателната статистика, която ни помага да знаем по-добре за нашите данни чрез разбиране на ключови характеристики в набор от данни.