Нажмите для Sound Cloud Audio

Как человек, стремящийся войти в столь желанную область науки о данных, я считаю, что для меня важно продолжать расти и учиться. Недавно я закончил самостоятельную программу Data Science в школе Flatiron и изучил новые методологии, когда дело доходило до изучения и обработки данных. Но проблема с буткемпом, по крайней мере для меня, заключалась в том, что у меня не было времени, чтобы полностью обработать и усвоить тот объем знаний, который я потреблял ежедневно. Теперь, когда я получил высшее образование и у меня есть прочная основа для изучения и обработки данных для построения моделей, я могу не торопиться, чтобы полностью понять концепции, которые, по моему мнению, важны для моего роста и развития как Data Scientist.

Первая концепция, которую, по моему мнению, важно усвоить любому начинающему специалисту по данным, — это правильное управление проектами. Создание применимых, организованных и продуманных проектов, которые могут быть беспрепятственно реализованы предприятиями, — это то, к чему должен стремиться любой специалист по данным. Недостаточно просто работать с данными — Data Scientist должен быть в состоянии сформулировать свои выводы таким образом, чтобы другие могли их понять и использовать. В связи с этим я посвящаю целую серию блогов фреймворку CRISP-DM, чтобы улучшить не только себя как Data Scientist, но и других.

Что такое CRISP-DM?

При изучении новой модели я чувствую, что важно также понимать историю модели. Применяя что-то в своем наборе инструментов, важно спросить себя, почему. Определенно есть разница между изучением чего-то для того, чтобы это использовать, и использованием чего-то только потому, что это стандарт. Годы работы в организациях, которые приняли и внедрили методологии, потому что «это круто», не понимая намеченной цели, могут сорвать цели многих организаций или отдельных лиц. Итак, давайте углубимся в историю происхождения CRISP-DM.

Межотраслевой стандартный процесс интеллектуального анализа данных, или CRISP-DM, был детищем пяти компаний, работающих в рамках инициативы финансирования ESPIRIT (Европейская стратегическая программа исследований в области информационных технологий), которую возглавил Европейский Союз еще в 1997 году. Цель этой модели в то время заключалась в создании открытой стандартной модели процесса или серии руководств для разработки межотраслевого стандарта для интеллектуального анализа данных. В то время компании только начинали пытаться понять множество данных, которые теперь были в их распоряжении, но выяснить, как правильно добывать и использовать эти данные в разных дисциплинах, было проблемой. CRISP-DM стал связующим звеном между потребностями бизнеса и целями интеллектуального анализа данных. Благодаря способности CRISP-DM адаптироваться к различным отраслям, она по-прежнему является основной моделью, используемой сегодня при проведении исследований на основе данных.

Так зачем использовать CRISP-DM? Является ли CRISP-DM панацеей от всех проблем отрасли, когда речь идет о работе с «большими данными»? Нет, CRISP-DM не идеален, и многие организации пытались обновить его за последние 20 лет, чтобы отразить потребности современного бизнеса и инициативы по интеллектуальному анализу данных. CRISP-DM является важным инструментом, поскольку его динамический, нелинейный, циклический подход к интеллектуальному анализу данных позволяет как специалистам по данным, так и организациям обновлять, настраивать и надлежащим образом исследовать данные, находящиеся в их распоряжении. Это, в свою очередь, допускает рефлексивный процесс, в котором могут происходить надлежащие изменения по мере продвижения проекта.

В центре процесса CRISP-DM лежат данные, с которыми работает организация. Этапы CRISP-DM, которые охватывают собранные данные, позволяют людям начинать с любого этапа, плавно переходить между любыми этапами и активно вносить изменения в исходную проблему на основе результатов в данных. Это рефлексивный подход, который позволяет Data Scientist проводить надлежащую бизнес-аналитику, чтобы решать сложные проблемы задолго до того, как открытия достигнут фазы развертывания.

Как правильно реализовать CRISP-DM для проекта машинного обучения?

Когда я учился в колледже, один из моих профессоров обычно доносил до меня мысль «какое нам дело?» когда дело доходило до любых исследований, связанных с проектами. Так почему же вы должны заботиться о CRISP-DM? Вы должны заботиться, потому что это сделает вас более аналитическим специалистом по данным. Цель интеллектуального анализа данных заключается не только в том, чтобы найти ответ, но и в том, чтобы найти ответ, который может быть использован организацией, в которой вы работаете, для достижения желаемого результата. Как это можно сделать с помощью CRISP-DM? Следуя этапам, которые поддерживают процесс исследования.

CRISP-DM состоит из шести этапов:

  • Понимание бизнеса
  • Понимание данных
  • Подготовка данных
  • Моделирование
  • Оценка
  • Развертывание

Хотя CRISP-DM не является линейным процессом, его рекомендуется начинать с этапа понимания бизнеса. Начиная с этого, Data Scientist может правильно понять предполагаемую цель или результат бизнеса, используя собранные данные. Этот шаг включает в себя создание целей, определение проблемы (или проблем) и постановку разумных целей еще до того, как вы погрузитесь в сами данные.

Следующим шагом процесса CRISP-DM является понимание данных. На этом этапе специалисты по данным собирают и исследуют данные, чтобы определить, достаточно ли самих данных для достижения первоначальных целей. Этот этап является рефлексивным подходом, поскольку он не только определяет, требуются ли дополнительные данные, но также позволяет специалисту по данным активно использовать понимание данных для критики понимания бизнеса. Таким образом, как бизнес, так и понимание данных допускают определенный уровень сдержек и противовесов друг с другом, что является основной идеей CRISP-DM.

После завершения первых двух этапов можно приступить к этапу подготовки данных. Этот этап включает в себя процесс очистки и обработки данных. Как и в любом другом проекте машинного обучения, этот этап является наиболее важным в любом проекте по науке о данных. Будьте готовы провести большую часть своего времени на этом этапе. Очень важно, чтобы вы очищали и эффективно обрабатывали свои данные на раннем этапе, чтобы модели, которые вы в конечном итоге запускаете, были эффективными.

Четвертая фаза процесса CRISP-DM — фаза моделирования. На этапе моделирования мы использовали наши очищенные данные, чтобы ответить на наши вопросы с помощью статистического анализа. На этом этапе очень важно убедиться, что вы используете правильные методы моделирования, параметры, гиперпараметры и графики для правильной оценки ваших данных. Если ваша модель в конечном итоге работает не так, как вы ожидали, важно также использовать эту фазу, чтобы подумать о том, что еще вы можете сделать, чтобы создать более надежную модель. На этом этапе вы будете постоянно перемещаться между этапами подготовки данных и моделирования, чтобы создать наилучшую возможную модель.

После надлежащего создания жизнеспособной модели (или моделей) пришло время их оценить. На этом этапе необходимо использовать данные, на которых ваша модель не обучалась. Это важно, потому что вы не хотите развертывать предвзятую модель. Предвзятая модель может создать проблемы для компании или государственной организации, в которой вы работаете, и поставить вас в тупик. Тестирование вашей модели на неизвестных данных — это то, как вы можете проверить и увидеть, действительно ли ваша модель работает так, как она должна работать. После того, как вы протестируете свою модель, важно вернуться к этапу бизнес-понимания, чтобы сообщить о своих выводах в организацию, для которой вы ее сделали, и проверить, довольны ли они результатами.

Если организация довольна результатами, вы переходите к этапу развертывания, который включает в себя ее раскрытие заинтересованным сторонам, презентации, отчеты и обсуждение того, как улучшить модель в будущем. И та-да! вы эффективно использовали CRISP-DM для создания жизнеспособной и применимой модели и уже на пути к тому, чтобы стать эффективным и вдумчивым специалистом по данным.

Надеюсь, вам понравился этот краткий обзор возможностей CRISP-DM и почему для специалистов по данным важно иметь полное представление об этой модели. В моем следующем сообщении в блоге я буду более подробно обсуждать фазу понимания бизнеса, продолжая серию руководств по CRISP-DM.

Если вы заинтересованы в дальнейшем изучении CRISP-DM, ознакомьтесь со следующими ресурсами: