Моя коллега Джудит недавно брала у меня интервью о моей роли руководителя отдела науки о данных в Owlin blog. Мы говорили о том, что такое наука о данных в Owlin, и каковы наши текущие задачи и задачи.

В Owlin мы не смогли бы делать то, что делаем, без огромной работы всех людей, работающих с нами. В этой серии интервью, Люди Оулина, мы спрашиваем их об их повседневной работе, прошлом и о том, что, по их мнению, будет происходить с Оулином в будущем. В этом месяце: Флорис Хермсен, наш руководитель отдела обработки данных, рассказывает нам о роли группы специалистов по обработке данных и целях, над достижением которых они работают.

Чем занимается специалист по данным в Owlin?

«Как специалисты по данным, наша главная ответственность заключается в поддержании и улучшении стека машинного обучения и анализа данных Owlin. Обработка естественного языка (NLP) является краеугольным камнем нашего предложения, поскольку она помогает нам анализировать мировые новости и другие текстовые источники, чтобы находить полезную информацию для наших клиентов. Наши модели выполняют широкий спектр типичных задач НЛП, начиная от перевода, классификации контента, анализа настроений, извлечения сущностей и заканчивая дедупликацией контента (сопоставление почти дублирующихся новостных статей и другой информации) и многое другое! После конвейера НЛП следует наш аналитический уровень: мы определяем, какие релевантные темы имеют тенденцию к объектам, которые мы отслеживаем, и соответствующим образом ранжируем их различными способами с помощью сравнительного анализа. Кроме того, много усилий уходит на поддержку наших расширенных возможностей многоязычного поиска.

Я считаю, что менее очевидная, но не менее важная обязанность группы специалистов по обработке и анализу данных заключается в поддержке других команд внутри организации, которые делают их процессы более эффективными и результативными за счет разумного использования данных. Это варьируется от помощи в мониторинге критических компонентов системы до прогнозирования проблем с источниками данных посредством обнаружения аномалий».

На чем в данный момент находится основное внимание для вас и вашей команды?

«В настоящее время мы находимся на этапе, когда становится все труднее просто добавить модель машинного обучения, чтобы выполнить определенную задачу лучше или эффективнее. Например, сложные механизмы синтаксического анализа, разработанные нашими аналитиками, ищут множество различных сигналов в новостях с постоянно меняющейся и растущей таксономией сигналов. Прямая замена такой системы новыми решениями ИИ сопряжена со многими сложностями, такими как отсутствие адаптивности и объяснимости. И то, и другое важно для наших клиентов и нашей повседневной деятельности. Кроме того, такое решение сопряжено с высокими требованиями к пользовательским, нишевым и изменчивым входным данным. Это довольно сложная задача!

Для нас ответ заключается в создании гибридных систем, которые позволяют моделям машинного обучения и людям-кураторам работать вместе, улучшая входные и выходные данные друг друга в закрытой экосистеме данных с участием человека. Настоящая задача здесь заключается в создании системы, которая может эффективно и быстро генерировать правильные обучающие данные для моделей машинного обучения. На мой взгляд, это на самом деле более сложная задача, чем выбор правильной архитектуры модели. Это согласуется с более широкой тенденцией в области науки о данных от ориентированного на модели к ориентированному на данные ИИ: модели — это только одна часть уравнения и правильное обучение. данные так же важны, если не больше. Если вы правильно решите эту задачу, система возьмет на себя роль специалиста по данным с точки зрения создания новых моделей и станет решением самообслуживания для экспертов в предметной области. Это значительно повышает гибкость моделей, которые вы запускаете в производстве, и значительно сокращает время выхода новых идей на рынок.

На этом этапе вы уже не просто разрабатываете и развертываете модели в конвейере машинного обучения, но участвуете в прямом преобразовании процессов и организации. Вам нужно подумать о том, как надежно хранятся данные, как люди взаимодействуют с системами, какие контракты данных должны существовать между различными частями организации и как спроектировать систему метаданных, которая должна управлять всем этим.

Прежде чем машинное обучение сможет выйти на сцену, процессы, которые они должны заменить или дополнить, должны быть достаточно зрелыми, а также той части организации, которую они затрагивают. Существует множество различных моделей, которые могут помочь сформулировать этот вопрос (просто Google «зрелость данных» или «зрелость ИИ»). Но что объединяет все эти модели, так это то, что вам нужен надежный и надежный сбор данных, хорошая доступность данных, надежная и воспроизводимая стратегия анализа данных и организация, которая понимает ценность и необходимые усилия для достижения этого».

Как вы работаете над этим как руководитель группы обработки и анализа данных?

«Работая специалистом по данным в Owlin, вы должны учитывать, что системы, над которыми вы работаете, на самом деле используются клиентами и постоянно обновляются. Это почти можно сравнить с модернизацией самолета в полете.

Поэтому вы должны делать маленькие, постепенные шаги к желаемому состоянию. Чрезвычайно сложно создать совершенно новую систему и одновременно удерживать самолет в воздухе. Следовательно, мы, пожалуй, сначала попробуем улучшить одну из кнопок в кабине. Или вы пытаетесь улучшить тележки, используемые в пассажирском салоне. Хитрость заключается в внесении постепенных изменений, которые медленно, но верно приводят к желаемому новому состоянию системы. Это связано с дополнительными преимуществами медленного развития существующих рабочих процессов, что приводит к более легкому и лучшему внедрению, а также к более предсказуемым срокам проекта.

Конечно, мы не можем сделать это сами. Нам нужна остальная часть компании, и эти инициативы должны быть согласованы на стратегическом уровне. Это может быть сложной задачей, поскольку требует концепций и навыков, которые иногда являются новыми для меня, нашей команды и компании в целом. Трансформация и инновации никогда не бывают легкими! Но, эй, мне нравятся вызовы, и поэтому я получаю огромное удовольствие от процесса».