Статистика за Data Science

Преди да предприема стъпки, нека ви кажа, че това е първият ми блог в интернет. И така, аз съм развълнуван, както и доста нервен очевидно :). През последните няколко месеца се зарових много и проучвах в интернет и намерих различни блогове и публикации, които ми помогнаха много, както и ме вдъхновиха и исках да споделя знанията си с онези, които искаха да започнат кариерата си в Data Science като мен .

Идеята зад написването на този блог, т.е. „Статистика за наука за данни“, който обхваща повечето от понятията на статистиката, която е необходима на всеки, който иска да започне кариерата си в Наука за данни.

Тази публикация съдържа теми по-долу:

Типове данни (количествени, качествени)
Статистика (описателна, инференциална)
Момент на бизнес решение (централна тенденция, дисперсия, изкривяване, ексцес)
Фуния за вземане на проби (популация, рамка на извадката, SRS, проба)
Нормална дистрибуция
Доверителен интервал - Пренасочване към връзката по-долу.

Интервал на доверителност
Както знаем в статистиката, параметърът на населението е непознат. Сега в тази публикация ще научим техниката как...medium.com

Тестване на хипотези (нулева хипотеза, алтернативна хипотеза)

Въведение в тестването на хипотези
Всеки бизнес проблем се нуждае от тестване на хипотези. Превръщането на нашата идея в тествана хипотеза ще ни помогне да потвърдим...medium.com

Типове данни

Типовете данни играят много важна роля в статистиката. За да приложим правилно статистическо измерване, трябва да разберем с какъв тип данни имаме работа. В противен случай ще доведете до погрешнопредположение. Ако наистина разбирате добре типовете данни, ще знаете какъв вид визуализация или графика ще бъде по-добра. Например лентовата графика се нуждае от категоричентип данни по оста x, а от другата страна хистограмата се нуждае от непрекъснато/дискретно данни по оста x. Тъй като визуализацията ще се променя според типовете данни. Говорих само за това как визуализацията на данните се променя в зависимост от типа на данните. Същото важи и за статистическото измерване. Надявам се, че ще разберете по някакъв начин защо типът данни е толкова важен.

Докато извършвате Проучвателен анализ на данни (EDAт.е.извършватепървоначално проучване на данни)е важно да знаете типовете данни. Има много статистически измервания, които ще правите, докато обработвате EDA. Но не можете да приложите статистическо измерване към всички типове данни, защото е специфично за типовете данни.

Нека да разгледаме типовете данни-:

1. Количествено-: Числова стойност, която може да бъде измерена или възниква, когато наблюдението попада в преброяване или измерване. С прости думи, които могат да бъдат измерени или преброени.

а. Непрекъснато-: Стойностите между две междинни са безкрайни. Или не е възможна междинна стойност, тогава това измерване се нарича непрекъснато. Пример - височина, тегло.

b. Дискретно-: Стойностите между две междинни са крайни или нямат междинна стойност. Пример-: брой коли и др.

2. Качествено-: Възниква, когато наблюденията попадат в отделни отделни категории или можете да кажете кои не могат да бъдат измерени. Пример-: Цвят на очите-сини, черни, зелени и др., Пол-мъжки, женски и т.н.

а. Номинално-: Ако няма естествен ред между категориите и по този начин дава само етикети с имена на различни категории. Пример-: Пол

b. Пореден номер-: Ако редът съществува. Пример-: Резултати, Рейтинг.

Статистика

Както всички знаете, това се нарича клон на математика, който се занимава със събиране, организиране, анализ, превода и презентация. Така че това е всичко относно дефиницията на статистиката, която вече знаете и тук в тази публикация нашата идея е колко статистиката е важна за науката за данни. Статистиката е един от основните стълбове на науката за данните. Статистиката е много мощен инструмент, когато наистина искахме да знаем прозрението на данните. Ако искате високо ниво на преглед, статистиката играе много важна роля в математиката за анализ. Има много графики, които можете да начертаете и да получите информация за данните, но ако наистина искате да получите представа за статистическите данни, имате нужда от статистическо измерване.

Два основни клона или широки категории-:

Описателна статистика-:Използва се за обобщаване и графично изобразяване на избраните от нас данни. Този процес ще ни позволи да разберемспецифичния набор от наблюдения. Това е доста право напред. Вие просто вземате група, която ви интересува, записвате данните за членовете на групата, след което използвате обобщена статистика и графики, за да представите свойствата на групата. При описателната статистика няма несигурност, защото ние описваме само хората и елемента, които действително измерваме. Ние не се опитваме да направим извод за имоти за по-голямо население.
Често използвани инструменти при описателен анализ-:
Централна тенденция (средна стойност, медиана, режим)
Дисперсия (вариация, SD, диапазон)
Изкривяване
Изводна статистика-:Взема данните от извадката и прави изводи за по-голямата популация, от която е съставена извадката. Тъй като целта на инференциалната статистика е да се направят изводите от извадка и да се обобщят за популация, трябва да имаме увереност, че нашата извадка точно отразява популацията.
Стандартни инструменти за анализ-:
Тест на хипотези
Интервал на доверителност
Регресионен анализ

Момент на бизнес решение

Измерване на централната тенденция

Това е обобщена статистика, която представлява централната точка или типичната стойност на набор от данни. Тези мерки, където повечето стойности в разпределение попадат и също се наричат централно местоположение на разпределение.

Средно/средно-: Средното е сумата от стойността на всяко наблюдение в набор от данни, разделена на броя наблюдения.

Предимство на средно-: Може да се използва както за непрекъснато, така и за дискретно.
Недостатък на средната стойност-: Средната стойност не може да бъде изчислена за категорични данни, тъй като стойностите не могат да бъдат сумирани и средната стойност включва всяка една стойност в разпределението. Така че се влияе от отклонения и изкривено разпределение.
Кога да използвате средно:Симетрично разпределение, непрекъснати данни.
Бонус-: ако средната стойност и медианата са по-близки, това не означава, че няма отклонения.

Медиана-:Медианата е средната стойност в разпределението, когато стойностите са подредени във възходящ и низходящ ред.

Предимство на медианата-: Медианата се влияе по-малко от извънредни стойности и изкривени данни от средната стойност и обикновено е предпочитана мярка за тенденция, когато разпределението не е симетрично, т.е. изкривено. Тъй като медианата е по-стабилна за отклоненията.
Недостатък на медианата-:Медианата не може да бъде идентифицирана за категорични номинални данни, тъй като не може да бъде логически подредена.
Кога да използвате медиана-:Изкривено разпределение, непрекъснати данни, редови данни.
Бонус-: Когато имате изкривено разпределение, медианата е по-добро разпределение.

Режим-:Режимът е най-често срещаната стойност в разпределението.

Предимство на режима-: Режимът има предимство пред медианата и средната стойност, сякаш може да се намери както за числови, така и за категорични данни.
Недостатък на режима-:Това са някои ограничения за използването на режима. В някои дистрибуции режимът може да не отразява много добре центъра на дистрибуцията. Когато разпределението на възрастта за пенсиониране е подредено от най-ниската към най-високата стойност, лесно се вижда, че центърът на разпределението е 57 години, но режимът е по-нисък, на 54 години. 54, 54, 54, 55, 56, 57, 57, 58, 58, 60, 60. Също така е възможно да има повече от един режим за едно и също разпределение на данни (бимодален или мултимодални). Наличието на повече от един режим може да ограничи способността на режима да опише центъра или типичната стойност на разпределението, тъй като не може да бъде идентифицирана единична стойност за описание на центъра. В някои случаи, особено когато данните са непрекъснати, разпределението може изобщо да няма режим (т.е. ако всички стойности са различни). В случаи като тези може да е по-добре да обмислите използването на медианата или средната стойност или да групирате данните в подходящи интервали и да намерите модалния клас.
Кога да използвате режим-: Категорични данни, Брой данни, Поредни данни.

Бонус кой е най-добрият средна стойност, режим, медиана-:Когато имате симетрично разпределение за непрекъснати данни, средната стойност, медианата и режимът са равни. В този случай анализаторите са склонни да използват средната стойност, тъй като тя включва всички данни в изчисленията. Въпреки това, ако имате изкривено разпределение, медианата често е най-добрата мярка за централната тенденция. Когато имате редови данни, медианата или режимът обикновено е най-добрият избор. За категорични данни трябва да използвате режима.

2. Измерване на дисперсията-:Дисперсията в статистиката е начин да се опише как е разпръснат набор от данни. Когато наборът от данни има голяма стойност, стойностите в набора са широко разпръснати: когато е малък, елементите в набора са плътно групирани. Колко далеч са независимите стойности от измерването на централната тенденция?

Отклонение-: Измерва колко далеч е разпръснат набор от данни. Техническото определение е „средната стойност на квадратната разлика от средната стойност“, но всичко това наистина ви дава много обща представа за разпространението на вашите данни. Това е измерването на грешката.
Стандартно отклонение-: Измерва колко далеч е разпръснат набор от данни. Техническата дефиниция е „корен квадратен от дисперсия“. Стандартната дисперсия е по-конкретна, като ви дава точните разстояния от средната стойност.
Диапазон-: Разликата между най-голямото и най-малкото в наблюдението в данните. Представяне с главно „R“.

3. Измерване на асиметрията -: Измерване на асиметрията в разпределението. Ако данните са концентрирани наляво, това се нарича положително/дясно изкривяване и данните са концентрирани наляво, тогава се нарича отрицателно/ляво изкривяване. Тя е мярка за ляво и дясно.

Нормално/симетрично разпределение-: Тук при нормално разпределение по-голямата част от стойността е групирана в средата на диапазона и остава симетрично към двете крайности. Технически можем да кажем, че ако средно = медиана = режим тогава се нарича нормално разпределение.
Положително/изкривено надясно-: Ако разпределението е изкривено надясно, което означава, че повечето от данните попадат в лявата страна на разпределението. Не бъркайте с определението, да, изглежда обратното, само че трябва да видите опашките. Ако видите в положителни изкривени опашки, изкривени надясно и това е причината да се нарича положително/надясно изкривени. В дясно изкривен режим средна › медиана ›
Отрицателно изкривено/ляво изкривено-: Това е обратното на дясното изкривяване. Както казах, трябва само да търсите опашки. Тук вляво изкривени опашки, изкривени наляво. Затова се нарича отрицателно/ляво изкривено. В десен изкривен режим средно ‹ медиана ‹

4. Измерване на ексцес -:Мярка за пиковост или степен на ограниченост в разпределението. Не забравяйте, че положителна стойност казва, че имате тежки опашки (т.е. много данни във вашите опашки), а отрицателна стойност казва, че имате леки опашки (т.е. малко данни във вашите опашки).

Мезокуртична крива-: Това разпределение технически се дефинира като ексцес от нула, въпреки че разпределението не трябва да е точно нула, за да бъде класифицирано като мезокуртично. Най-разпространеното мезокуртично разпространение са:

анормалното разпределение.

b.Всяко разпределение с гаусова (нормална) форма и нулева вероятност на други места на реалната линия.

Лептокуртична крива-: Това разпределение има излишен положителен ексцес. Опашките са по-дебели от нормалното разпределение.
Platykurtic Curve-: Това разпределение има отрицателен ексцес. Опашките са много тънки в сравнение с нормалното разпределение.

Фуния за вземане на проби

В реален сценарий никога няма да получите достъп до общата популация за извършване на анализ. Ако получите, вие сте най-щастливият човек на земята, защото можете да играете с данни, както искате. Както казах, не е възможно да се получи цялото население. За справяне с техниката на фуния за вземане на проби дойде.

Нека да разгледаме техниката на фуния за вземане на проби.

Население-:Населението е всички данни във вселената, които отговарят на конкретен критерий.
Извадкова рамка-:Източникът на информация. Звучи просто, но е много важно, тъй като информацията не трябва да е пристрастна, как и от кого е събрана информацията и т.н.
Просто произволно вземане на извадки (SRS)/Сляпо сгъната извадка-:Това е подмножество от статистическа съвкупност, в която всеки член на подмножеството има еднаква вероятност да бъде избран.

Предимство-:Счита се за справедлив начин за подбор на извадка, тъй като всеки член на популацията има равен шанс да бъде избран.

Недостатък-:Може да възникне грешка в извадката при обикновено произволно вземане на извадка, ако в крайна сметка извадката не отразява точно популацията, която трябва да представлява.

Извадка-:Това е подгрупа, съдържаща характеристиката на голяма популация. Пробата трябва да говори за населението. Винаги помнете, че пробата трябва да е произволна и да не е пристрастна.

Нормално разпределение

Той представлява поведението на повечето ситуации във Вселената. Винаги е само за население. Това е най-често използваното разпределение, което се използва често във финанси, инвестиции, наука и инженерство. Това се характеризира напълно със своята средна и стандартно отклонение, което означава, че разпределението не е изкривено и не проявява ексцес >. Това прави разпределението симетрично и се изобразява като камбанообразна крива, когато се чертае. Нормалното разпределение се определя от средна (средна) нула и стандартно отклонение от 1,0, с изкривяване от нула и ексцес = 3 (нарича се стандартно нормално разпределение).

При нормално разпределение приблизително 68% от събраните данни ще попаднат в рамките на +/- едно стандартно отклонение (σ) от средното, приблизително 95% в рамките на +/- две стандартни отклонения (σ) и 99,7 % в рамките на три стандартни отклонения (σ).

Всяко разпределение се нарича нормално разпределение, ако има следните характеристики.

Стойностите са между –безкрайно до +безкрайно

Площта под кривата винаги е 1

Вероятността за една случайна стойност винаги е 0.

За непрекъснати данни.

Изглежда като форма на камбана.

Определя се със средна стойност, стандартно отклонение

Стандартно нормално разпределение - нормалното разпределение може да се преобразува в стандартно. нормално разпределение, използващо (x-mu)/сигма, наречено z резултат

Точно половината от стойностите са вляво от центъра, а другата половина вдясно.

Медианата ще бъде по-голяма от режима, но по-малка от средната стойност

Стигнахме до края на тази публикация, но исках да споделя с вас един цитат, казано от най-великия икономист на всички времена „Роналд Коуз“-:

Ако изтезавате данните достатъчно дълго, те ще признаят всичко.

Надявам се публикацията ми да ви помогне и следете за предстоящи теми.

Статистика за Data Science

Подобни въпроси