В тази сесия ще научим техники и най-добри подходи за мащабиране във вашия проект за Data Science.

Методология на науката за данните

В областта на науката за данните решаването на проблеми и отговарянето на
въпроси чрез анализ на данни са стандартна практика. Често
специалистите по данни изграждат модел за прогнозиране на резултатите или
откриване на основни модели с цел получаване на прозрения.
Организациите могат след това да използват тези прозрения, за да предприемат действия и да вземат решение
в идеалния случай подобрете бъдещите резултати. Те са различни инструменти и технологии за изграждане и внедряване на модели. Обемът на структурирани, неструктурирани и полуструктурирани данни бързо нараства.

10-етапна методология за наука за данни, която обхваща технологии и подходи

Тъй като наклонностите за анализ на данни стават по-отворени и широко разпространени, учените по данни се нуждаят от фундаментална методология, достатъчно компетентна, за да осигури стратегия, независимо от използваните технологии, обеми данни или подходи. Методологията се състои от 10 етапа, които образуват цикличен процес за използване на данни за разкриване на прозрения. Всеки етап играе важна роля при определянето на цялостната методология.

Какво е методология? Методологията е цялостен подход, който ръководи процесите и упражненията в дадена област. Методологията не зависи от конкретни технологии или инструменти, нито е набор от техники или рецепти. По-скоро методологията предоставя на специалиста по данни рамка за това как да продължи с каквито и методи, процеси и евристики да се използват за получаване на отговори или резултати.

Етап 1: Разбиране на бизнеса

Всеки проект започва с бизнес разбиране. Бизнес застъпниците, които се нуждаят от аналитичното решение, което играе най-важната роля на този етап, като описва дилемата или проблема, целите на проекта и изискванията за решение от бизнес гледна точка. Този първи етап поставя основата за успешна интерпретация на бизнес проблема. За да подпомогне разрешаването на проекта, застъпникът трябва да участва в целия проект, за да предостави експертен опит в областта, да прегледа междинните констатации и да гарантира, че работата продължава по пътя за генериране на планираното решение.

Етап 2: Аналитичен подход

Повече от всичко друго, аналитичният подход е използването на подходящ процес за разделяне на проблем на по-малки части, необходими за разрешаването му. Всяко парче става по-малък и по-лесен за решаване проблем. След като бизнес проблемът е ясно формулиран, специалистът по данни може да дефинира аналитичния подход за решаване на проблема. Този етап включва изразяване на проблема в контекста на статистически техники и техники за машинно обучение, така че организацията да може да идентифицира най-подходящите за търсения резултат. Например, ако целта е да се предвиди отговор като „да“ или „не“, тогава аналитичният подход може да се дефинира като изграждане, тестване и прилагане на класификационен модел.

Етап 3: Изисквания за данни

Първият ход в изискването за данни е да се определи какви данни са необходими за изграждане на модела. Това трябва да бъде продиктувано предимно от обхвата и нивото на детайлност, необходими за постигане на целите на модела, както е описано по-горе. Избраният аналитичен подход определя изискванията за данни. По-конкретно, аналитичните методи, които ще се използват, изискват определено съдържание на данни, формати и представяния, ръководени от опит в областта.

Етап 4: Събиране на данни

е процесът на събиране и измерване на информация за променливите, представляващи интерес, в установена систематична процедура, която квалифицира човек да отговори на поставени изследователски въпроси, да тества хипотези и да оцени резултатите. В началния етап на събиране на данни специалистите по данни разпознават и събират възможните ресурси на данни - структурирани, неструктурирани и полуструктурирани - свързани с проблемната област. Обикновено те трябва да изберат дали да направят допълнителни инвестиции, за да получат по-малко достъпни елементи от данни. Може би е най-добре да отложите инвестиционното решение, докато не стане известно повече за данните и модела. Ако има пропуски в събирането на данни, специалистът по данни може да трябва да преразгледа съответно изискванията за данни и да събере нови и/или повече данни. Докато вземането на проби от данни и подмножеството все още са важни.

Етап 5: Разбиране на данните

Основната цел на разбирането на данните е да се получи обща представа за данните, които потенциално ще бъдат полезни за по-нататъшните стъпки в процеса на анализ на данни, но разбирането на данните не трябва да се ръководи изключително от целите и методите, които да се прилагат в по-късни стъпки. първоначалното събиране на данни, специалистите по данни обикновено използват описателна статистика и техники за визуализация, за да разберат съдържанието на данните, да оценят качеството на данните и да открият първоначални прозрения за данните. Може да е необходимо събиране на допълнителни данни, за да се запълнят пропуските.

Етап 6: Подготовка на данните

Този етап обхваща всички дейности за конструиране на набора от данни, който ще се използва в следващия етап на моделиране. Дейностите по подготовка на данни включват почистване на данни (справяне с липсващи или невалидни стойности, елиминиране на дубликати, правилно форматиране), комбиниране на данни от множество източници (файлове, таблици, платформи) и трансформиране на данни в по-полезни променливи. В процес, наречен инженерство на характеристики, специалистите по данни могат да създадат допълнителни обяснителни променливи, наричани още предиктори или характеристики, чрез комбинация от знания за домейн и съществуващи структурирани променливи. Когато са налични текстови данни, като регистрационни файлове на център за обаждания на клиенти или бележки на лекари в неструктурирана или полуструктурирана форма, текстовият анализ е полезен при извличане на нови структурирани променливи за обогатяване на набора от предиктори и подобряване на точността на модела. Подготовката на данни обикновено е най-отнемащата време стъпка в проект за наука за данни. В много области някои стъпки за подготовка на данни са общи за различни проблеми. Автоматизирането на определени стъпки за подготовка на данни предварително може да ускори процеса чрез минимизиране на времето за ad hoc подготовка. С днешните високопроизводителни, масово паралелни системи и аналитична функционалност, намираща се там, където се съхраняват данните, специалистите по данни могат по-лесно и бързо да подготвят данни, използвайки много големи набори от данни.

Етап 7: Моделиране

Започвайки с първата версия на подготвения набор от данни, етапът на моделиране се фокусира върху разработването на прогнозни или описателни модели според предварително дефинирания аналитичен подход. С предсказуемите модели специалистите по данни използват набор за обучение (исторически данни, в които е известен резултатът от интерес), за да изградят модела. Процесът на моделиране обикновено е много итеративен, тъй като организациите получават междинни прозрения, което води до усъвършенстване на подготовката на данни и спецификацията на модела. За дадена техника специалистите по данни могат да изпробват множество алгоритми със съответните им параметри, за да намерят най-добрия модел за наличните променливи.

Етап 8: Оценка

По време на разработването на модела и преди внедряването специалистът по данни оценява модела, за да разбере неговото качество и да гарантира, че той правилно и напълно адресира бизнес проблема. Оценката на модела включва изчисляване на различни диагностични мерки и други резултати като таблици и графики, позволяващи на специалиста по данни да интерпретира качеството на модела и неговата ефикасност при решаването на проблема. За предсказуем модел учените по данни използват набор за тестване, който е независим от набора за обучение, но следва същото разпределение на вероятностите и има известен резултат. Наборът за тестване се използва за оценка на модела, така че да може да бъде усъвършенстван, ако е необходимо. Понякога крайният модел се прилага и към набор за валидиране за крайна оценка. Освен това специалистите по данни могат да присвоят тестове за статистическа значимост на модела като допълнително доказателство за неговото качество. Това допълнително доказателство може да бъде инструмент за оправдаване на внедряването на модел или предприемане на действия, когато залозите са високи - като скъп допълнителен медицински протокол или критична система за полет на самолет.

Етап 9: Внедряване

След като е разработен задоволителен модел и е одобрен от бизнес спонсорите, той се внедрява в производствената среда или в сравнима тестова среда. Обикновено се внедрява по ограничен начин, докато ефективността му бъде напълно оценена. Внедряването може да бъде толкова просто, колкото генериране на отчет с препоръки, или толкова ангажирано, колкото вграждане на модела в сложен работен процес и процес на точкуване, управляван от персонализирано приложение. Внедряването на модел в оперативен бизнес процес обикновено включва допълнителни групи, умения и технологии от предприятието. Например, търговска група може да внедри модел на склонност към отговор чрез процес на управление на кампания, създаден от екип за разработка и администриран от маркетингова група.

Етап 10: Обратна връзка

Събирайки резултати от внедрения модел, организацията получава обратна връзка за ефективността на модела и неговото въздействие върху средата, в която е внедрен. Например, обратната връзка може да бъде под формата на нива на отговор на промоционална кампания, насочена към група клиенти, идентифицирани от модела като високопотенциални отговорили. Анализирането на тази обратна връзка позволява на специалистите по данни да прецизират модела, за да подобрят неговата точност и полезност. Те могат да автоматизират някои или всички стъпки за събиране на обратна връзка и оценка на модела, усъвършенстване и преразпределяне, за да ускорят процеса на опресняване на модела за по-добри резултати.

След като имате ясна представа за методологията на данните, стигнахме до заключението на този урок.

В края на този урок успяхме да разберем:
1. Методология на данните

Когато приключите с тази сесия, любезно споделете напредъка си в акаунта си в социалните медии

Съвети

Ден 11–12: Методология на данните

Урок 11–12 ден: Днес научихме методология на данните, която ми даде представа за алгоритмичния подход при стартиране на проект за наука за данни.

#100daysofcode #100daysofDscode #100days #Day11–12 #DataScience #MachineLearning #Ai #Probability