В области науки о данных происходит большая эволюция, причем некоторые из них, такие как AutoML, сокращают некоторые из основных задач специалистов по данным, освобождая драгоценное время. Это привело к тому, что некоторые увидели эволюцию науки о данных в сторону роли менеджера по продукту или больше в сторону инженерии:

Каждый раз, когда мы спрашиваем наших гостей о том, в каком направлении движется наука о данных, мы получаем один из двух ответов: либо 1) наука о данных становится продуктом / бизнес-ролью, и специалисты по данным должны мыслить как продакт-менеджеры, разбирающиеся в данных; или 2) наука о данных становится инженерной проблемой, и специалисты по данным должны думать больше как инженеры. - Сообщение в блоге TDS

Я уже говорил об этом в предыдущей статье. Но никогда не детально подробно объясняет, почему и как специалисты по обработке данных должны бороться с этим сдвигом. Люди часто говорят о том, что DataScientist относится к типу A или B, и в некоторой степени это разделение является скорее отражением навыков специалистов по данным, чем организацией, которая их нанимает, и того, как добиться максимальной эффективности в этом организационном контексте.

Один из распространенных мифов о науке о данных заключается в том, что это

«80% обработка данных / 20% анализ / машинное обучение»

Наука о данных - это не просто набор алгоритмов обработки данных и машинного обучения или анализа, это еще не все. Кэсси Козырков, определившая data-science как:

«Дисциплина, делающая данные полезными».

Чтобы сделать данные полезными, требуется нечто большее, чем анализ или модель прогнозирования. Для некоторых это может означать наличие хороших инженерных навыков для развертывания модели в производстве, для других это может означать возможность использовать организацию для изменения своих процессов на основе предоставленной информации.

Специалисты по обработке данных часто борются с аспектом своей роли, связанным с управлением продуктами и проектами, например с установлением правильного объема работы, взаимодействием с заинтересованными сторонами, координацией с другими командами для обработки зависимостей, отстаиванием и продвижением к доставке последней мили и постоянным выполнением этой работы. они действительно добавляют ценность.

Новые роли появились в командах по обработке данных, специализирующихся в этой конкретной области. Это облегчает проблему в больших группах данных, которые могут позволить себе иметь преданных делу людей на этих ролях, но небольшие команды обычно не имеют такой роскоши, и когда специалисты по обработке данных время от времени берут на себя роль менеджера по работе с данными, как правило, разница между неудачей и успех.

Проблема 0. Определение объема

Определение масштабов проекта - один из важнейших первых шагов к успеху. Подход, применяемый многими лабораториями данных, заключается в том, чтобы сосредоточиться на доказательстве концепции (POC), обычно занимаясь «низко висящими фруктами» с точки зрения бизнес-кейсов, но часто полагаясь на «расширенную аналитику», «машинное обучение» или «ИИ», в то время как достаточно простых бизнес-правил.

Такой подход позволяет быстро добиться успеха и получить поддержку руководства по вопросам данных, однако ключ к раскрытию потенциала данных в организации лежит в приверженности, а не в достижении краткосрочных результатов и сосредоточении внимания на краткосрочной окупаемости инвестиций.

Многие преимущества, которые может дать наука о данных, достигается тогда, когда организация переходит через этапы зрелости данных от опытного к знанию данных. Обработка данных - это сложная задача, и необходимо иметь представление о том, какие инициативы следует реализовывать.

Специалисты по данным должны помочь определить, какие области имеют ценности, на основе их знаний о данных.

Обладая знаниями о данных, специалисты по данным хорошо подготовлены для определения различных возможностей и могут помочь в проведении анализа воздействия проекта, они могут настроить сценарий что, если, оценить потенциальные возможности для роста с помощью критериев и значений прав и помочь сформировать бизнес-кейс для инициатив.

Специалисты по данным должны помочь определить, что подходит для MVP, на основе их технических знаний и ориентации на экспериментирование.

При оценке проекта всегда следует начинать фокусироваться на предоставлении MVP, не требуя слишком большого вовлечения. Например, если SQL-запроса может быть достаточно для создания отдельных сегментов для использования в автоматизации маркетинга, этого может быть достаточно, чтобы использовать его для MVP, а не на раннем этапе построения полной модели прогнозирования.

Определение объема проекта требует решения вопросов об активах данных, измерениях, организационной структуре и оценке потенциального воздействия проекта. Специалисты по DataScientists находятся в хорошем месте, чтобы ответить на некоторые из наиболее важных вопросов по продукту.

Проблема 1. Данные

Машинное обучение действительно хорошо умеет оптимизировать и автоматизировать решения, которые уже принимаются в той или иной форме. Не ждите, что наука о данных творит чудеса и просто обнаруживает неразличимые закономерности без правильных данных.

Данные могут быть зашумленными, и вам нужно правильное соотношение сигнал / шум и правильные данные, чтобы обеспечить сигнал, необходимый для обнаружения действенных выводов или прогнозов. Роль специалиста по данным также в некотором смысле состоит в том, чтобы управлять зависимостями данных.

А) Данные, необходимые для исследования / решения проблемы, не существуют или не существуют в достаточном количестве.

Уже много говорилось о месте сбора данных в иерархии потребностей науки о данных, но в основе иерархии потребностей лежит сбор данных.

В большинстве отраслей существует понимание того, что может быть высокоэффективным вариантом использования для науки о данных, но чаще всего данных, необходимых для реализации этого варианта использования, не существует.

Если, например, вы в настоящее время получаете поток информации о транзакциях, но у вас нет каталога продуктов с достаточным объемом данных, то на самом деле будет невозможно глубоко погрузиться в темы, такие как предпочтения клиентов. Проблемы этого типа можно решить несколькими способами: вручную пометить исходный каталог продуктов необходимыми атрибутами, передать этот тип работы на аутсорсинг, например, Amazon Mechanical Turk, или настроить проект для сбора этой информации у источника. система.

Или, например, получение информации о типе жалоб от клиентов. Это не то, что было бы доступно, если бы оно не было зафиксировано командой обслуживания клиентов. Обычно они требуют наличия номенклатуры, чтобы пометить общение с клиентом.

В других случаях ведение журнала не реализовано в приложении или не отображается на веб-сайте для сбора этих данных. В этом случае возможность поддерживать связь и получать необходимые журналы, реализуемые командой разработчиков или аналитической группой, ответственной за систему управления тегами.

В некоторых случаях речь идет не только о создании необработанных данных, но и о ценных данных, запускаемых конкретными событиями. Это может быть тот случай, когда вам нужно вызвать определенное поведение путем экспериментов. Представьте себе, что компания розничной торговли хотела лучше понять, как им следует организовать макет магазина, они могут получить некоторое представление на основе исторических данных о том, что люди обычно покупают вместе, но у них возникнут проблемы с тем, чтобы получить истинное представление о ситуация «что если» и ее влияние на другие основные показатели без каких-либо экспериментов.

В общем, извлечение и возможность использовать данные там, где требуется больше вопросов и более глубокое погружение. Это создает эффективный цикл, в котором данные обогащаются каждый цикл. Управление компонентом сбора данных проекта - неотъемлемая часть работы специалиста по данным.

Б) Данные, необходимые для исследования / решения проблемы, существуют, но у вас нет к ним доступа.

Даже когда данные существуют, может случиться так, что у вас, как у специалиста по данным, нет к ним доступа. В игре могут быть разные причины, приоритеты в источниках данных, бюджет, требования законодательства или необходимость их получения от третьих лиц.

Возьмем для примера получение (сырых) данных о потоках кликов. Большинство веб-сайтов отслеживают события на веб-сайтах с помощью Google Analytics (GA). Некоторые из этих данных можно экспортировать либо через пользовательский интерфейс GA, либо через их API. Мне необходимо иметь возможность экспортировать необработанные данные, однако вам необходимо приобрести версию Google Analytics 360 по цене 150 тысяч долларов в год. Версия 360 предоставляет исторические данные за 13 месяцев. Данные технически доступны, но если ваша организация не получит лицензию на инструмент, они будут недоступны. Если ваша организация не желает платить лицензионный сбор за Google Analytics 360, единственной альтернативой для сбора необработанных данных о потоках кликов будет установка сборщика кликов и ожидание сбора данных.

Когда данные должны быть получены из разных систем, особенно в крупных нетехнических организациях, необходимо получить ресурсы, запросить бюджет, может потребоваться обмен данными между различными сторонами, необходимо провести согласованные обсуждения, QA необходимо настроить процесс, чтобы гарантировать, что данные соответствуют ожиданиям… и т. д. Когда данные необходимо получить от третьей стороны, такой как Experian или Nielsen, может потребоваться запрос предложения, обработка закупок…

Некоторые отрасли могут быть довольно строгими в отношении доступа к данным, телекоммуникации, которые хранят много данных, связанных с клиентами, данными о местоположении, историей просмотров, схемой звонков, особенно чувствительны к этой теме.

В) Данные существуют, но низкого качества

В некоторых случаях данные существуют, но низкого качества. Это может произойти, когда определенные поля ввода настроены как свободный текст или когда нет процесса управления основными данными. Существует множество вариантов того, как выглядят данные плохого качества, и качество данных оказывает значительное влияние на любой аналитический процесс.

Представьте, что вы проводите анализ удержания клиентов или строите прогнозную модель без какого-либо процесса управления основными данными. Без какого-либо процесса дедупликации клиентов номера удержания обычно были бы отключены, особенно это может быть в случае отсутствия централизованного управления идентификацией. Для розничных покупателей покупатель будет по существу идентифицироваться как новый покупатель при каждом посещении магазина или когда они не упоминают, что являются предыдущими покупателями.

Конечно, есть некоторые упражнения по очистке данных, которые специалист по обработке данных мог бы сделать, чтобы смягчить влияние этих проблем на анализ или построение прогнозных моделей, но правильный подход к решению этих проблем качества данных часто носит системный характер. Лоббирование и стремление к улучшениям - это часть роли специалиста по данным, а не только часть самой очистки.

Обзор

Чтобы иметь возможность устранить некоторые зависимости на стороне данных, необходимы некоторые возможности управления проектами с точки зрения координации для управления ключевыми зависимостями с точки зрения доступности и актуальности данных.

Проблема 2. Интерпретация

Специалисты по анализу данных занимаются интерпретацией данных, аналитическими данными и показателями. Они должны иметь возможность взаимодействовать с различными заинтересованными сторонами и помогать проливать свет на то, что означают данные, и выступать в качестве переводчика генерируемых идей и прогнозов. Специалистам по обработке данных часто приходится добиваться высокого уровня взаимодействия с заинтересованными сторонами и сопровождать их в аналитическом процессе для выполнения этих задач.

А) Данные необходимо интерпретировать в контексте

Работа Data-science - интерпретировать данные в контексте. Видеть, что переменная коррелирована или кажется предсказательной, сама по себе не очень полезна. Это необходимо понимать в рамках данного контекста, и для этой области знания необходимы, чтобы иметь возможность правильно интерпретировать данные.

Для специалистов по данным контекст позволяет лучше понять, как на самом деле работают модели, отделить причину от шума, лучше выявлять явные аномалии в данных и определять источники данных, которые, возможно, необходимо получить. или напрямую от пользователя.

Налаживание процесса обзора с различными заинтересованными сторонами и обмен достигнутыми результатами и текущими знаниями помогает получить обратную связь и лучше реализовать эти идеи и прогнозы в контексте, тем самым избегая определенных ловушек и направляя работу в правильное русло.

Б) Необходимо предоставить контекст

Специалистам по данным не просто нужно учитывать контекст, им также необходимо предоставить контекст в отношении своей интерпретации данных или моделей, которые они построили.

Специалисты по данным и статистике часто полагаются на типичные показатели производительности в статистике и машинном обучении, чтобы сообщить, как работает модель, но это не что-то, что обеспечивает реальный контекст того, что может повлиять на бизнес, или что может быть передано внешним заинтересованным сторонам. Для большинства заинтересованных сторон (ориентированных на бизнес) оценка R2, AUC или F1 имеет очень небольшое ощутимое значение. Должен быть перевод того, что показатели офлайн-скоринга приносят ощутимую пользу продукту, то есть: является ли это важной вехой, которую мы установили перед тем, как начать онлайн-тестирование, есть ли потенциальное увеличение дохода или риск, связанный с использованием заемных средств. предсказание или понимание.

Обзор

Возможность получения и предоставления контекста является важной потребностью для ученых, занимающихся данными, они, как и менеджер по продукту, должны управлять заинтересованными сторонами и управлять коммуникациями, чтобы отсортировать зависимости и сообщать о результатах и ​​прогрессе.

Проблема 3. Создание ценности

А) Необходимо использовать полученные данные и идеи

Получение инсайтов или прогнозов - это очень хорошо, но само по себе это не имеет большого значения для бизнеса. Работа, созданная специалистами по обработке данных, должна быть приведена в действие для создания ценности для бизнеса. В организациях, управляемых инженерами, с этим можно справиться, внедряя прогнозы и модели принятия решений в основные части приложения. Там может быть достаточно простой фиксации кода, чтобы учесть новые данные и идеи.

В других типах организаций может потребоваться некоторое лоббирование, организация процесса или конкретного эксперимента LIVE, который будет настроен или опробован, прежде чем приступить к производству процесса.

Б) Способ использования данных должен быть привязан к бизнес-процессам или производственным процессам.

Чтобы создать ценность из данных, важно использовать понимание или прогноз в рамках бизнес-процесса или процесса продукта.

Например, для деятельности CRM это означает возможность связывать предложения и кампании с создаваемыми идеями или прогнозами, адаптировать коммуникацию к конкретным клиентам и т. Д. В других областях использование данных означает нечто совершенно иное с точки зрения бизнес-процесса, это может означать, например, что страховые компании не учитывают определенные виды рисков или розничные торговцы изменяют свою стратегию ценообразования.

Специалисты по анализу данных являются поставщиками инсайтов или прогнозов, и поэтому они хорошо осведомлены о своих потенциальных ловушках. Они также могут лучше всего помочь определить, как эти бизнес-процессы / процессы продукта должны быть изменены для эффективного использования данных.

В) Необходима надлежащая оценка того, как данные повышают ценность бизнеса.

Чтобы гарантировать, что проект или продукт данных приносят пользу, необходима надлежащая оценка, позволяющая количественно оценить эту ценность. Это означает возможность составить правильный план измерений, согласовать показатели и, если возможно, настроить эксперимент.

Настройка правильной оценки позволяет избежать множества ошибок и повторять до тех пор, пока желаемый результат не будет достигнут, или перейти к другим альтернативам. Прогноз / понимание часто - это всего лишь один болт, который требуется для извлечения выгоды для бизнеса. Измерение ценности может пролить свет на такие проблемы, как проблемы с качеством данных или несоответствие бизнес-процессу, неэффективное общение или неверная гипотеза.

Критерии успеха инициативы по работе с данными должны быть четко сформулированы, а измерения должны выполняться, чтобы гарантировать извлечение ценности и отсутствие негативного воздействия инициативы.

Обзор

Чтобы достичь цели «последней мили», специалистам по данным необходимо осуществлять некоторую координацию между командами, чтобы убедиться, что предоставленные идеи или прогнозы действительно используются, используются эффективно и действительно предоставляют ценности.

Проблема 4. Техническое обслуживание

Часто проблема заключается в том, что в некоторых организациях вложения в данные рассматриваются как разовые вложения. Дело в том, что наука о данных дает идеи и прогнозы, которые необходимо постоянно обновлять и обновлять, чтобы они и дальше приносили ту же ценность. Шесть сигм / методология DMAIC вводит концепцию фазы управления, которая гарантирует, что изменения процесса продолжают давать одно и то же значение, пока процесс не станет стабильным.

1) Одноразовое вложение

Некоторые из проблем, связанных с применением науки о данных в компании, заключаются в том, что продукты для анализа данных можно рассматривать так же, как и любой другой ИТ-проект, и рассматривать их как разовое вложение, а не как начало эффективного цикла непрерывного совершенствования.

Это может привести к негативным последствиям, таким как использование на уровне проекта третьими сторонами, полное игнорирование уровня знаний предметной области, специфичного для компании / области, необходимых для работы науки о данных, а также учет потребностей в обслуживании модели и аналитических данных.

2) Нет повторяющейся фазы оценки

Поставляемые данные часто не полностью и постоянно оцениваются для измерения их общей производительности. Часто они просто развертываются, и, возможно, проводится единственная проверка, чтобы просто убедиться, что это приносит пользу.

Включение продуктов данных в поток улучшений для определенных ключевых областей процессов позволяет измерять влияние на ключевые бизнес-метрики на еженедельных, ежемесячных или ежеквартальных обзорных встречах.

Это не так точно, как полная экспериментальная оценка, но позволяет, по крайней мере, следить за тем, как информационный продукт может влиять на показатели. В частности, если есть тщательный анализ ключевых драйверов бизнеса.

Обзор

Информационную инициативу следует рассматривать как непрерывное вложение с постоянными усилиями в отношении ресурсов, обслуживания и периодической проверки создаваемой ценности.

Заворачивать

В области данных существует острая потребность в управлении продуктами и проектами. DataScientist может оказать существенное влияние на свою организацию, взяв на себя эту задачу, а не ограничиваясь простым описанием роли с точки зрения анализа и прогнозирования.

Еще от меня о Хакерской аналитике: