Щракнете за Sound Cloud Audio

Като човек, който иска да навлезе в силно желаната област на Data Science, вярвам, че за мен е важно да продължа да се развивам и да уча. Като наскоро завършил самостоятелна програма за Data Science на училището Flatiron, научих нови методологии, когато ставаше дума за изследване и обработка на данни. Но проблемът с bootcamp, поне за мен, беше невъзможността да имам време да обработя напълно и усвоя количеството знания, които консумирах ежедневно. Сега, след като завърших и имам силна основа за изследване и манипулиране на данни с цел изграждане на модели, мога да отделя време, за да разбера напълно концепции, които вярвам, че са важни за моето израстване и развитие като Data Scientist.

Първата концепция, която смятам за важна за всеки процъфтяващ Data Scientist, е правилното управление на проекти. Създаването на приложими, организирани и обмислени проекти, които могат да бъдат реализирани безпроблемно от бизнеса, е нещо, към което всеки Data Scientist трябва да се стреми. Възможността просто да работи с данни не е достатъчна — специалистът по данни трябва да може да формулира откритията си по начин, който другите могат да разберат и използват. С това посвещавам цяла поредица от блогове на рамката CRISP-DM, за да подобря не само себе си като специалист по данни, но и другите.

Какво е CRISP-DM?

Когато изучавам нов модел, смятам, че е важно да се разбере и историята на модела. Важно е, когато приемате нещо във вашия набор от инструменти, да се запитате защо. Определено има разлика между това да научиш нещо, за да го използваш, и да използваш нещо само защото е стандарт. Прекарването на години в работа за организации, които са възприели и наложени методологии, защото „това е страхотното нещо“, без да разбирате предвидената цел, може да провали целите на много организации или лица. И така, нека се потопим малко по-дълбоко в историята на произхода на CRISP-DM.

Междуотрасловият стандартен процес за извличане на данни, или CRISP-DM, е плод на въображението на пет компании, работещи по инициативата за финансиране на ESPIRIT (Европейска стратегическа програма за изследване на информационните технологии), ръководена от Европейския съюз през 1997 г. Целта на този модел по онова време беше да се създаде отворен стандартен модел на процес или серия от насоки, за да се разработи междуиндустриален стандарт за извличане на данни. В този момент компаниите тъкмо започваха да се опитват да разберат изобилието от данни, които сега бяха на тяхно разположение, но измислянето как правилно да копаят и използват тези данни в различните дисциплини беше предизвикателството. CRISP-DM стана този мост между бизнес нуждите и целите за извличане на данни. Поради способността на CRISP-DM да се адаптира към множество индустрии, той все още е основният модел, използван днес при провеждане на изследвания, базирани на данни.

Така че защо да използвате CRISP-DM? Дали CRISP-DM е лекарството за всички проблеми в индустрията, когато става въпрос за работа с „големи данни“? Не, CRISP-DM не е перфектен и много организации се опитаха да го актуализират през последните 20 години, за да отразяват нуждите на съвременния бизнес и инициативите за извличане на данни. CRISP-DM е важен инструмент, тъй като неговият динамичен, нелинеен, цикличен подход към извличането на данни позволява както на специалистите по данни, така и на организациите да актуализират, фино настройват и правилно изследват данните, с които разполагат. Това от своя страна позволява рефлексивен процес, при който могат да настъпят правилни промени с напредването на проекта.

В центъра на процеса CRISP-DM са данните, с които организацията работи. Фазите на CRISP-DM, които обхващат събраните данни, позволяват на хората да започнат от всяка фаза, да се движат плавно между всяка фаза и активно да създават промени в първоначалния проблем въз основа на констатациите в данните. Това е рефлексивен подход, който позволява на Data Scientist да провежда правилни бизнес анализи, за да разрешава сложни проблеми много преди откритията да достигнат фазата на внедряване.

Как можете правилно да внедрите CRISP-DM за проект за машинно обучение?

Когато бях студент в колежа, един от моите професори редовно караше вкъщи въпроса „защо трябва да ни интересува?“ когато става въпрос за проекти, включващи изследвания. Така че защо трябва да се интересувате от CRISP-DM? Трябва да ви пука, защото това ще ви направи по-аналитичен специалист по данни. Целта на извличането на данни не е просто намирането на отговора, а намирането на отговор, който действително може да бъде използван от организацията, за която работите, за да създадете желания резултат. Как може да се направи това с помощта на CRISP-DM? Следвайки фазите, които подпомагат изследователския процес.

CRISP-DM се състои от шест фази:

  • Бизнес разбирателство
  • Разбиране на данните
  • Подготовка на данни
  • Моделиране
  • Оценка
  • Разгръщане

Въпреки че CRISP-DM не е линеен процес, препоръчва се да започнете от фазата на разбиране на бизнеса. Започването оттук позволява на Data Scientist правилно да развие разбиране за планираната бизнес цел или резултат, използвайки събраните данни. Тази стъпка включва създаване на цели, дефиниране на проблема (или проблеми) и създаване на разумни цели, преди дори да се потопите в самите данни.

Следващата стъпка от процеса CRISP-DM е разбирането на данните. Тази фаза е мястото, където специалистите по данни събират и изследват данните, за да определят дали самите данни са достатъчни за постигане на първоначалните цели. Тази фаза е рефлексивен подход, тъй като не само определя дали са необходими повече данни, но също така позволява на Data Scientist активно да използва информация за данните, за да критикува бизнес разбирането. По този начин както бизнесът, така и разбирането на данните позволяват ниво на проверки и баланси помежду си, което е основна идея на CRISP-DM.

След приключване на първите две фази може да започне фазата на подготовка на данните. Тази фаза включва процеса на почистване и спорове на данни. Както всеки друг проект за машинно обучение, тази фаза е най-важната от всеки проект за наука за данни. Очаквайте да прекарате по-голямата част от времето си в тази фаза. Много е важно да почиствате и обработвате данните си ефективно отрано, така че моделите, които в крайна сметка изпълнявате, да са ефективни.

Четвъртата фаза на процеса CRISP-DM е фазата на моделиране. Фазата на моделиране е мястото, където използвахме нашите почистени данни, за да отговорим на въпросите си с помощта на статистически анализ. Уверете се, че използвате правилните техники за моделиране, параметри, хиперпараметри и графики, за да оцените правилно вашите данни, е много важно в тази фаза. Ако вашият модел в крайна сметка не работи както сте очаквали, тогава също е важно да използвате тази фаза, за да обмислите какво друго можете да направите, за да създадете по-силен модел. На този етап вие непрекъснато ще се движите напред-назад между подготовката на данните и фазата на моделиране, за да създадете възможно най-добрия модел.

След правилното създаване на жизнеспособен модел (или модели), сега е време да ги оцените. Тази фаза изисква използване на данни, на които вашият модел не е бил обучен. Това е важно, защото не искате да внедрявате предубеден модел. Един предубеден модел може да създаде проблеми за компанията или правителствената организация, за която работите, и да ви постави в безизходица. Тестването на вашия модел срещу неизвестни данни е начинът, по който можете да проверите и видите дали вашият модел наистина работи по начина, по който трябва да работи. След като тествате модела си, важно е да се върнете към фазата на разбиране на бизнеса, за да докладвате констатациите си на организацията, за която сте го направили, и да проверите дали са доволни от резултатите.

Ако организацията е доволна от резултатите, тогава преминавате към фазата на внедряване, която включва разкриването му пред участващите страни, презентации, доклади и дискусии за това как да подобрите модела в бъдеще. И та-да! ефективно сте използвали CRISP-DM, за да създадете жизнеспособен и приложим модел, и сте на път да станете ефективен и обмислен специалист по данни.

Надявам се, че сте харесали това обобщение на това какво може да направи CRISP-DM и защо е важно специалистите по данни да имат задълбочено разбиране за този модел. В следващата си публикация в блога ще обсъждам по-подробно фазата на бизнес разбирането, докато продължавам серията си уроци по CRISP-DM.

Ако се интересувате да продължите да научавате за CRISP-DM, моля, разгледайте следните ресурси: