Дата-инженеры — редкая порода. Без них проект машинного обучения рухнет, не успев начаться. Их знания и понимание программных и аппаратных средств в сочетании с врожденным чувством построения гибких конвейеров данных не имеют себе равных.

Так почему же концепции инженерии данных не преподают начинающим профессионалам в области науки о данных? После всего:

«Хороший специалист по обработке данных зависит от данных, к которым у него есть доступ».

А инженеры данных — это те, кто создает надежные конвейеры, которые преобразуют данные, чтобы специалисты по данным могли их использовать. Они являются важным винтиком в любом проекте машинного обучения. Просто посмотрите на всплеск термина «инженер данных» в Google за последние 5 лет:

Невероятный! Думайте об инженере данных как о сборщике автомобилей Формулы-1. Этот человек может создать или сломать чемпионского гонщика — в его/ее руках будет машина гладкой и качественной, верно? Это то, что инженер данных делает в проекте машинного обучения.

Учитывая важность этой роли и спрос на специалистов по обработке данных, мы включили еще больше сессий по этой теме в DataHack Summit 2019, крупнейшую в Индии конференцию по прикладному искусственному интеллекту и машинному обучению!

Вы получите более широкое представление об инженерии данных и его важности благодаря нашим выдающимся спикерам, которые также примут практический подход к инженерии данных. Осталась всего неделя, так что:

Мощные сессии Data Engineering на DataHack Summit 2019

Вот исчерпывающий список ресурсов по инженерии данных, которые могут быть вам полезны:

Хак-сессии – это одночасовые практические занятия по программированию на новейших платформах, архитектурах и библиотеках в области машинного обучения, глубокого обучения, обучения с подкреплением, НЛП и других областей.

MLOPs — запуск моделей машинного обучения в производство Акаша Тандона

Возможно, вы слышали о правиле науки о данных 80/20. В нем говорится, что 80% времени специалиста по данным тратится на работу с беспорядочными данными, и только 20% времени тратится на анализ. Это более-менее верно, но есть одна оговорка.

Важным аспектом, который до недавнего времени упускался из виду, была операционализация и развертывание науки о данных и, в частности, конвейеров машинного обучения. Будь то стартап или предприятие, часто приходится слышать, что проекты машинного обучения застревают. этап проверки концепции.

Это решающий аспект вашего проекта. Вы должны знать, как это работает и как это вписывается в ваш конвейер машинного обучения.

Акаш Тандон, старший инженер по данным в Atlan, проведет практическое занятие на тему «MLOps — внедрение моделей машинного обучения в производство». Он сосредоточится на развертывании моделей машинного обучения локально и на облачной платформе.

Для этого он позаимствует соответствующие принципы из программной инженерии и дисциплин DataOps. Он также расскажет о различных концепциях, включая потребность в конвейерах CI/CD для машинного обучения, переобучения, управления версиями кода/модели/данных, контейнеризации, API вывода и мониторинга.

Вот основные выводы из хакерской сессии Акаша:

  • Понимание необходимости и основных принципов MLOps
  • Основные строительные блоки производственных конвейеров машинного обучения
  • Узнайте, как использовать облачные платформы для масштабирования

Обработка высокоскоростных потоков данных с использованием Kafka и Spark, Дурга Вишванатха Раджу

Spark и Kafka — два наиболее широко используемых инструмента в области больших данных. Я неизменно сталкиваюсь с ними, когда читаю о том, как был настроен или развертывается конвейер обработки данных. Это жизненно важные инструменты в наборе инструментов специалиста по данным — убедитесь, что вы хорошо с ними разбираетесь.

Дурга Вишванатха Раджу, опытный эксперт и лидер в области обработки больших данных и обработки данных, продемонстрирует эти инструменты в своем мастер-классе «Обработка высокоскоростных потоков данных с помощью Kafka и Spark».

Сессия обещает быть очень интересной и познавательной. Вот краткий обзор того, что он планирует освещать:

  • Обзор экосистемы Kafka
  • Получение данных из файлов журнала в Kafka Topic с помощью Kafka Connect
  • Обработка данных с помощью Spark Structured Streaming
  • Отображение результатов потоковой аналитики
  • Обзор хранения результатов в базах данных, таких как HBase

Вот основные выводы из хакерской сессии Дурги:

  • Получите обзор потоковой аналитики
  • Интеграция структурированной потоковой передачи Kafka и Spark

Если вы новичок в Spark, я предлагаю пройти следующие подробные руководства:

Инженерия данных в действии — работа с данными в масштабе, Амит Прабху и Ришабх Радж

Инженерия данных становится ключевой, когда мы имеем дело с огромными объемами данных. Сложность возрастает, и становится трудно справляться с огромным объемом — так как же развернуть и интегрировать разработку данных в существующий конвейер машинного обучения?

Прежде чем приступить к анализу, важно правильно структурировать данные. Разные источники означают разную схему, логику извлечения, дедупликацию и синхронизацию с меняющимися источниками данных, а также ряд других проблем. Вот тут-то и появляются инженеры данных и, более конкретно, методы интеграции данных.

В этом хакерском сеансе Амита Прабху и Ришабха Раджа вы узнаете об источниках интеграции данных и передовых методах, связанных с ней. Необходимость инженерии данных и ее важность в науке о данных также будут подчеркнуты на широком уровне.

Ключевые выводы из их хакерской сессии:

  1. Базовое понимание инженерии данных
  2. Лучшие практики интеграции данных

Вы знаете, что такое передача данных? Как это работает и почему каждый специалист по данным должен знать об этом? Если нет, то вам нужно исправить это немедленно!

Наиболее непрерывными рядами данных являются данные временных рядов, такие как датчики трафика, датчики состояния, журналы транзакций, журналы активности и т. д. Фактически, устройства IoT (все виды датчиков) излучают данные в реальном времени.

Потоковая передача данных с таким большим объемом и скоростью сопряжена с собственным набором проблем:

  • Разовый пропуск
  • Бесконечные данные
  • Очень высокая скорость накопления данных
  • Ограничения памяти и
  • Понятие дрейфа, т.е. изменение распределения поступающих данных

Из-за этих уникальных проблем традиционные методы периодической обработки неэффективны, и существует потребность в новых методологиях.

Итак, у нас есть наш выдающийся докладчик, доктор Саян Путатунда, который обсудит необходимость анализа потоковых данных, а также поделится с нами тем, почему обычных методов пакетной обработки недостаточно. Его доклад на DataHack Summit 2019 будет посвящен теме «Анализ потоковых данных с помощью онлайн-обучения».

Узнайте от самого доктора Саяна, что вы можете ожидать от его Power Talk:

Кроме того, я бы порекомендовал уделить немного времени и посмотреть приведенный ниже вебинар Варуна Ханделвала по потоковой аналитике (это хороший предшественник любого сеанса обработки данных):

Все, что вам нужно знать о развертывании моделей глубокого обучения с использованием Tensorflow Serving, Тата Ганеш

А, одна из моих любимых тем — развертывание моделей глубокого обучения. Его не преподают на большинстве онлайн-курсов, о нем мало говорят на встречах, и многие начинающие специалисты по данным не знают об этом. И все же это ключевая часть КАЖДОГО проекта глубокого обучения в отрасли.

Существуют определенные проблемы, с которыми вы можете столкнуться при развертывании этих моделей глубокого обучения, такие как управление версиями модели, контейнеризация модели и т. д.

Веб-фреймворки, такие как Flask и Django, можно использовать для переноса модели в REST API и предоставления API. Но это решение требует, чтобы разработчики писали и поддерживали код для обработки запросов к модели, а также для поддержки других функций, связанных с развертыванием.

Чтобы решить эту проблему, TensorFlow представила TensorFlow Serving, гибкую и высокопроизводительную систему обслуживания моделей машинного обучения, разработанную для производственных сред.

В этом хакерском сеансе Тата Ганеш, старший инженер по машинному обучению в Capillary Technologies, поможет нам понять TensorFlow Serving и проиллюстрирует его функции на примере варианта использования.

Вот что он говорит о хакерской сессии, слушайте!

Развертывание моделей глубокого обучения в производстве с использованием PyTorch, Вишну Субраманиан

Еще одна действительно интригующая сессия по развертыванию моделей глубокого обучения — на этот раз с использованием PyTorch. Мы знаем, как сложно делать прогнозы искусственного интеллекта. Они приходят с широким спектром проблем, таких как:

  • Данные должны находиться на стороне клиента, что требует, чтобы модель работала на таких устройствах, как мобильные телефоны, устройства IoT.
  • Обработка нескольких запросов пользователей
  • Обработка приложений, которые могут иметь требования почти в реальном времени, когда время вывода модели может составлять несколько секунд.

Решением этой проблемы является PyTorch. Он чрезвычайно популярен среди исследователей, но производственным группам было нелегко преобразовать последние исследования в удобную для производства среду.

Начиная с PyTorch 1.0, сообщество и несколько команд из таких компаний, как Facebook и Microsoft, предприняли значительные усилия, чтобы сделать его более простым и удобным для использования в производственной среде.

Итак, на этом сеансе взлома наш спикер Вишну Субраманиан поможет вам рассмотреть различные подходы к тому, как команды могут запускать свои модели в производство.

Ключевые выводы хакерской сессии Вишну:

  1. Развертывание моделей PyTorch с помощью Flask
  2. Обработка нескольких запросов пользователей
  3. Понять, как использовать скрипт torch для сохранения обученной модели в виде графика и загрузки ее на другом языке, таком как C++.
  4. Сокращение времени вывода с помощью методов квантования

И если вы новичок в PyTorch или вам нужно быстро освежить знания, вот идеальная статья для начала:

Руководство для начинающих по PyTorch и тому, как это работает с нуля

Конечные примечания

Инжиниринг данных — это бурно развивающаяся область, и сейчас в отрасли есть множество вакансий. Я уверен, что вы уже поняли это — роль инженера данных намного шире, чем просто управление рабочими процессами данных, конвейерами и процессами извлечения, преобразования и загрузки (ETL).

Если вы хотите освоить Data Engineering, то начните учиться прямо сейчас на этих невероятных сессиях на DataHack Summit 2019. Это место, где самые яркие умы сотрудничают, чтобы предоставить практический опыт обучения в режиме реального времени по различным темам, связанным с прикладным машинным обучением и Искусственный интеллект.

Забронируйте место на DataHack Summit 2019

Вы также можете прочитать эту статью о приложении Analytics Vidhya для Android.

Статьи по Теме

Первоначально опубликовано на https://www.analyticsvidhya.com 5 ноября 2019 г.