Достатъчно статистика за Data Science

Преди да започна, позволете ми да ви кажа, че се провалих в бакалавърския си курс по статистика, което може или не може да означава, че учителят ми изобщо не ме харесва, но със сигурност не харесвах самия предмет. Така че, ако това кара някой да се чувства по-малко разстроен от скучното пътуване, през което трябва да преминете, за да станете учен по данни, предлагам да продължите да четете цялото ми писане.

И така, какво е статистика? Призрак ли е? Мит ли е? Или това е неуспешен опит на някой, който се опитва да звучи готино, докато казва „Аз съм статистик!“ в края на 90-те!

По принцип това е изследване на факти и събития. Да наистина е така!!! Тя ви позволява да предвидите, класифицирате или да се опитате да намерите връзки/модели между събития въз основа на някакъв много сложен математически процес или това, което е известно като „алгоритми“ в компютърните науки.

Когато искате да научите нещо ново, обикновено се чудите какви ресурси има, колко време ще ви отнеме? Къде да започна? Е, тъй като съм провал, взех нещата от много назад. Но в крайна сметка помогна, защото нищо не може да се научи достатъчно добре, ако няма силна мотивация зад него. Причината, поради която започнах сам да изучавам статистика, беше Data Science. Някои от вас може да не са съгласни, но Data Science всъщност е съвременната статистика. Може да не е традиционната статистика, но до голяма степен съдържа концепциите и идеите за решаване на проблем от реалния живот. Мога да ви кажа темите, които трябваше да науча, за да започна с Data Science & Machine Learning. Научаването на това може да не е достатъчно за цялата ви кариера, но няма да ви демотивира в пътуването ви в Data Science.

Регресия

Започнах да изучавам машинно обучение преди повече от година и половина и първата тема, която ме засегна, беше линейната регресия. Става въпрос за прогнозиране на някои числени стойности, базирани на дадени стойности. Започнах с Проблема с цените на жилищатакъдето трябва да предвидите цената на къщата въз основа на нейната площ в квадратни фута. Имаше множество данни за цените на жилищата спрямо района, които трябва да анализирате и след това да прогнозирате. Частта с кода беше адски мистериозна кутия за мен, тъй като нямах представа какво се случва отдолу. Така че трябваше да прегледам едночасово видео за Линейна регресия, Множествена линейна регресия,Полиномна регресия. Това беше преди да разбера, че темата е чиста статистика. Вижте, това изобщо не беше трудно!!!

Докато изучавате линейна регресия, уверете се, че разбирате концепцията „P-стойност“ много добре, за да оптимизирате модела си, като приоритизирате значимите полета и игнорирате маловажните. Не само е свързано с регресията, но със сигурност е много важен термин, който трябва да знаете.

Класификация

При този тип проблеми трябва да отговорите с Да или Не, Добър или Лош, Висок или Нисък. Може да не винаги има две опции за избор, като например може да бъдете попитани дали даден продукт е добър, справедлив или по-малко справедлив , или лошо или много лошо. За разлика от проблемите с регресията, при които трябваше да предвидите числени стойности, тук трябва просто да предвидите опция и следователно да класифицирате.

Трябва да преминете през логистична регресия, която е подход за предсказуема класификация. По името може да не се разбере, че това е класификационен подход, но изходът е променлива, съдържаща два възможни отговора.

Има Най-близки съседи, Машини за опорни вектори, Класификация на дървото на решенията, които също трябва да бъдат научени, за да се справят с проблеми с класификацията.

Класификация срещу групиране

Може да не е статистическа тема, но мисля, че всички трябва да знаете каква е всъщност разликата между тях. Но знаете ли какво означава Етикет? Етикетът е нещо, което се иска да направи или показва отговора. Ако ви дадат хиляди изображения на животни и ви помолят да класифицирате котките и кучетата от тези снимки, тогава котки и кучета са два етикета. Проблемите, които носят краен брой етикети, могат да бъдат наречени класификационен проблем. И така, има ли проблеми, които нямат никакви етикети? Да предположим, че трябва да категоризирате прогнозите за времето въз основа на температура, влажност и площ. Човекът, който ви назначи, не каза нищо за добро време, лошо време или какъвто и да е подход, базиран на етикети. Всичко, което трябва да направите, е да групирате дните, които имат сходно изглеждащо време. Този тип проблеми са известни като проблеми с клъстерирането. Обикновено те носят визуализации, за да имат правилно разбиране на клъстерите или групите, които са създадени.

Теорема на Бейс

Въпреки че вероятността изглежда толкова лесна за научаване, като се има предвид, че вероятността да се случи дадено събитие е събитието, разделено на броя на всички възможни събития, това не е толкова просто. Вероятността за някакво събитие може да бъде нарушена от факти. Bayesian Statistics посочва тези случаи и ги обработва, използвайки своята теория. Задължително е да се вгледат добре в обясненията му.

Вероятностни разпределения!!!

Вероятността може да се дефинира като число между 0 и 1, където 0 означава, че няма вероятност, а 1 представлява, че има 100% шанс. Нещо между 0 и 1 (като 0,5) показва вероятността за възникване на събитие. Вероятностните разпределения са функции, които генерират вероятността след определени експерименти. Важно е да добиете представа и да разберете математиката зад някои популярни вероятностни разпределения като — Нормално разпределение, Поасоново разпределение, Експоненциално разпределение и т.н.

Ресурси

Къде да започна? Къде да уча? Интернет е най-добрият ресурс, който човек може да има. Има много уебсайтове и блогове, които преподават тези теми. Не мога определено да предложа конкретен, защото аз самият не следвах само един край. Вместо това продължих да плувам с груба сила, за да се науча. Един сайт изглежда труден, отидете на другия. Докато фокусът ви е върху изучаването на тази тема, определено ще намерите това, което е най-подходящо за вас. Късмет!!!