Статистика за Data Science

Здравейте,
Това е първата статия, в която ще покрием цялата статистика и теория на вероятностите, от които се нуждаем, за да научим науката за данните. В тази поредица от статии ще започнем оттук и постепенно ще преминем към анализ на данни, използвайки статистиката, която научаваме. След това ще изградим, ще използваме алгоритми за машинно обучение, за да решаваме реални проблеми с науката за данни. Разбира се, ако искате да започнете с науката за данните, познаването на програмирането е необходимост. Така че ви приветствам да разгледате и моята поредица от уроци за python.

От моята предишна статия, където говорихме за въведение в науката за данните, знаем, че науката за данните е поле на изследване, което използва математика, програмиране и познания в областта, за да извлича значими прозрения от данните. Учените по данни ще прилагат алгоритми за машинно обучение към данни като числа, текстове, изображения, видеоклипове и други, за да създадат изкуствени системи, които изпълняват задачи, които изискват човешки интелект. Използвайки тези системи, ние извличаме прозрения, които могат да бъдат използвани в нашия бизнес за растеж.
Така че знаем, че математиката и статистиката са от съществено значение за изучаването на науката за данните. Математиката и статистиката са гръбнакът на всеки алгоритъм за машинно обучение, който ще използваме в областта на науката за данни. Така че добрите познания по математика и статистика ще ви помогнат да разберете данните, както и да приложите алгоритми към тях.

Статистика

Статистиката е наука за учене от данни. Статистиката се използва за обработка на сложни проблеми в реалния свят, така че специалистите по данни и анализаторите да могат да търсят значими тенденции и промени в данните. С прости думи, статистиката може да се използва за извличане на смислени прозрения от данните чрез извършване на математически изчисления върху тях.

Анализ на данни и анализ на данни

Ще използваме математика и статистика за анализ на данни и за целите на анализа на данни в Data science.

Анализът на данни е процедура за проучване, почистване, трансформиране и обучение на данните с цел намиране на полезна информация, препоръчване на заключения и помощ в процеса на вземане на решения.

От друга страна, анализът на данни използва данни, машинно обучение, статистически анализ и компютърно базирани модели, за да получите по-добра представа и да вземете по-добри решения от данните. Анализът се определя като „процес на трансформиране на данни в действия чрез анализ и прозрения в контекста на вземане на организационни решения и решаване на проблеми.“

Така че накратко при анализа на данни, ние ще разглеждаме миналото, използвайки данните, които сме събрали, и ще използваме анализи, за да предвидим какво може да се случи в бъдеще.

Типове данни

Типовете данни са важна концепция за статистиката, която трябва да бъде разбрана, за да приложим правилно статистически измервания към нашите данни и следователно да направим правилни заключения за определени допускания за тях.

Има 2 основни типа данни, с които ще работим.

Категорични данни
Числени данни.

Какво представляват категоричните данни (качествените данни)?

Категоричните данни са тип данни, които могат да се съхраняват в групи или категории с помощта на имена или етикети. Това групиране обикновено се прави според характеристиките и приликите на данните. Например полът е категорична информация, защото може да бъде категоризиран на мъжки и женски според някои уникални качества, притежавани от всеки пол.

Има 2 основни типа категорични данни

Номинални данни— Номиналните данни са именувани данни, които могат да бъдат разделени на отделни категории, които не се припокриват.
Често срещан пример за номинални данни е пол; мъж и жена.
Поредни данни- Поредните данни са данни, които са поставени в някакъв ред или скала.
Пример за това е оценката на щастието по скала от 1 до 10.

Какво представляват числените данни? (Количествени данни)

Числените данни са вид данни, които се изразяват чрез числа, а не като описания на естествен език. Може да се събира само в числова форма. Този тип числени данни може да се използва като форма на измерване, като например височина, тегло, IQ на човек и т.н.

Може да се използва и за извършване на аритметични операции като събиране, изваждане, умножение и деление.

Има 2 вида цифрови данни.

Дискретни данни- В рамките на диапазон има определени стойности, които тази променлива не може да получи.
Напр.- Брой хора (не може да има десетичен брой хора)
Непрекъснати данни-Тези променливи могат да получат всяка точка в диапазон.
Напр.-Височина на човек. (Може да има десетични стойности в диапазона)

Данни за населението срещу извадкови данни

Население

Популацията е групата, от която се събират данните. Нашите данни са информацията, събрана от населението. Популацията винаги се определя първо, преди да започне процесът на събиране на данни за каквото и да е статистическо изследване.

В изследванията населението не винаги се отнася до хора. Това може да означава група, съдържаща елементи от всичко, което искате да изучавате, като обекти, събития, организации, държави, видове, организми и т.н.

проба

Това е част от популацията, която е избрана на случаен принцип за изследването. Извадката трябва да бъде избрана така, че да представя всички характеристики на популацията. Процесът на избиране на подгрупата от съвкупността се нарича извадка, а избраната подгрупа се нарича извадка.

Категории в статистиката

Областта на статистиката се състои от две широки категории. Това са описателни и изводни статистики.

И двете ни дават различна представа за данните. Едно само по себе си не ни помага много да разберем пълната картина на нашите данни, но използването на двете заедно ни дава мощен инструмент за описание и предсказания.

Описателна статистика (Проучвателен анализ на данни)

Той описва важните характеристики/свойства на данните, използвайки измерва централната тенденция като средно, медиана, режим и мерките за дисперсия като обхват, стандартно отклонение, вариация и др. Тук, за да обобщим и представим данни, които ще използваме диаграми, таблици и графики.

Например,
имаме оценки от 10 000 ученици и може да се интересуваме от цялостното представяне на тези ученици и разпределението, както и разпространението на оценките.

Описателната статистика ни предоставя инструментите за дефиниране на нашите данни по най-разбираемия и подходящ начин.
Инструменти–
Визуализация, измерване на централната тенденция, разпространението на данните .

Инференциална статистика

Става въпрос за използване на данни от извадка и след това правене на изводи за по-голямата съвкупност, от която е съставена извадката.

Целта на инференциалната статистика е да се направят заключения от извадка и да се обобщят за популацията. Той определя вероятността на характеристиките на извадката с помощта на теория на вероятностите. Инференциалните статистики са ценни, когато изследването на всеки член на цялата популация не е удобно или възможно.

Най-често използваните методологии са тестове за хипотези, дисперсионен анализ и др.

Например,
може да имате списък с информация за 100 души (вашата „извадка“) от 10 000 души („населението“). Можете да използвате този списък, за да направите някои предположения за поведението на цялото население.

Това до голяма степен покрива въведението в статистиката и някои термини, които трябва да знаете, преди да започнете да изучавате статистика. В следващата статия ще започнем да говорим за описателна статистика.

Благодаря ви, момчета, че прочетохте тази статия и се надявам, че ви е харесала.

Ще се видим скоро. чао