Инженерите по данни са рядка порода. Без тях един проект за машинно обучение ще се разпадне, преди да започне. Техните знания и разбиране на софтуерни и хардуерни инструменти, съчетани с вроден усет за изграждане на гъвкави канали за данни, са несравними.

Така че защо концепциите за инженеринг на данни не се преподават на амбициозни специалисти по наука за данни? След всичко:

„Ученът по данни е толкова добър, колкото и данните, до които има достъп.“

А инженерите по данни са тези, които изграждат стабилни тръбопроводи, които трансформират данните, така че специалистите по данни да могат да ги използват. Те са критично зъбно колело във всеки проект за машинно обучение. Само погледнете скока в термина „Инженер по данни“ в Google през последните 5 години:

Невероятен! Мислете за инженер по данни като за производител на коли от Формула 1. Този човек може да направи или да разбие шампионски шофьор - в неговите/нейните ръце зависи колко гладка и добре изработена ще бъде колата, нали? Това прави инженерът на данни в проект за машинно обучение.

Като се има предвид важността на тази роля и търсенето на специалисти по инженерство на данни, ние включихме още повече сесии по темата в DataHack Summit 2019, най-голямата конференция за приложен изкуствен интелект и машинно обучение в Индия!

Ще придобиете по-широко разбиране за Data Engineering и неговото значение чрез нашите изтъкнати лектори, които също ще възприемат практически подход към Data Engineering. Остава само една седмица, така че:

Мощни сесии за инженеринг на данни на DataHack Summit 2019

Ето изчерпателен списък с ресурси за инженеринг на данни, които може да намерите за полезни:

Хак сесии са едночасови практически сесии за кодиране на най-новите рамки, архитектури и библиотеки в машинното обучение, дълбокото обучение, обучението с подсилване, НЛП и други области.

MLOps — Пускане на модели за машинно обучение в производство от Акаш Тандон

Може би сте чували за правилото 80/20 на науката за данните. В него се посочва, че 80% от времето на специалиста по данни се прекарва в работа с объркани данни и само 20% от него се изразходва за извършване на анализ. Повече или по-малко е вярно, но има предупреждение, свързано с него.

Критичен аспект, който беше пренебрегван доскоро, беше операционализирането и внедряването на науката за данни и по-специално на тръбопроводите за машинно обучение. Независимо дали става въпрос за стартираща компания или предприятие, често се чува за проекти за машинно обучение, които се забиват в фазата на доказване на концепцията.

Това е решаващ аспект на вашия проект. Трябва да сте наясно как работи това и къде се вписва в тръбопровода ви за машинно обучение.

Акаш Тандон, старши инженер по данни в Atlan, ще проведе практическа хакерска сесия на тема „MLOps — въвеждане на модели за машинно обучение в производство“. Той ще се фокусира върху внедряването на модели за машинно обучение локално и в облачна платформа.

За да направи това, той ще заимства съответните принципи от софтуерното инженерство и дисциплините DataOps. Той също така ще обхване различни концепции, включително необходимостта от CI/CD тръбопроводи за машинно обучение, преквалификация, версии на код/модел/данни, контейнеризация, API за изводи и мониторинг.

Ето основните изводи от хакерската сесия на Akash:

  • Разберете необходимостта и основните принципи на MLOps
  • Основни градивни елементи на производствени тръбопроводи за машинно обучение
  • Научете как да използвате облачни платформи за управление на мащаба

„Обработка на високоскоростни потоци от данни с помощта на Kafka & Spark“ от Дурга Вишванатха Раджу

Spark и Kafka — два от най-широко използваните инструменти в областта на Big Data. Неизменно ги срещам, когато чета за това как е създаден или се внедрява тръбопровод за инженеринг на данни. Те са жизненоважни инструменти в инструментариума на специалиста по данни – уверете се, че сте добре запознати с тях.

Дурга Вишванатха Раджу, ветеран експерт и лидер по големи данни и инженеринг на данни, ще демонстрира тези инструменти в своята хакерска сесия на тема „Обработка на високоскоростни потоци от данни с помощта на Kafka и Spark“.

Обещава да бъде много интересна и богата на знания сесия. Ето кратък преглед на това, което той планира да покрие:

  • Преглед на екосистемата на Кафка
  • Получаване на данни от регистрационни файлове в Kafka Topic с помощта на Kafka Connect
  • Обработка на данни чрез Spark Structured Streaming
  • Показване на резултати от поточно анализиране
  • Преглед на съхраняването на резултати в бази данни като HBase

Ето основните изводи от хакерската сесия на Durga:

  • Получете общ преглед на поточните анализи
  • Интегриране на структуриран стрийминг на Kafka и Spark

Ако сте нов в Spark, предлагам да преминете през следните задълбочени уроци:

„Инженеринг на данни в действие – работа с данни в мащаб“ от Амит Прабху и Ришаб Радж

Инженерингът на данни става ключов, когато имаме работа с огромни количества данни. Сложността се увеличава и става трудно да се справите с големия обем - тогава как да насочите и интегрирате инженеринга на данни в съществуващия си канал за машинно обучение?

Преди да започнете анализа, структурирането на данните по правилния начин е важно. Различните източници означават различна схема, логика на извличане, дедупликация и синхронизиране с променящите се източници на данни, в допълнение към редица други предизвикателства. Това е мястото, където идва инженерството на данни и по-конкретно техниките за интегриране на данни.

В тази хакерска сесия от Амит Прабху и Ришаб Радж ще получите представа за източниците на интегриране на данни и най-добрите практики, свързани с тях. Необходимостта от инженеринг на данни и значението му в науката за данни също ще бъдат подчертани на широко ниво.

Ключови изводи от тяхната хакерска сесия:

  1. Фундаментално разбиране на инженерството на данни
  2. Най-добри практики при интегриране на данни

Знаете ли какво е поточно предаване на данни? Как работи и защо всеки учен по данни трябва да е наясно с това? Ако не, трябва незабавно да поправите това!

Най-непрекъснатите серии от данни са данни от времеви серии, като сензори за трафик, здравни сензори, регистрационни файлове за транзакции, регистрационни файлове за активност и т.н. Всъщност IoT устройствата (всички видове сензори) излъчват данни в реално време.

Поточното предаване на данни с такъв голям обем и скорост идва със собствен набор от предизвикателства:

  • Еднократен пропуск
  • Безкрайни данни
  • Много висока скорост на натрупване на данни
  • Ограничения на паметта и
  • Концепция Дрейф, т.е. промяна в разпределението на входящите данни

Поради тези уникални предизвикателства, конвенционалните методи за партидна обработка не са ефективни и има нужда от нови методологии.

Така че тук имаме нашия изтъкнат лектор д-р Саян Путатунда, който ще обсъди необходимостта от анализ на поточно предаване на данни и също ще сподели с нас защо конвенционалните методи за групова обработка не са достатъчни. Неговият разговор на DataHack Summit 2019 ще бъде на тема „Анализиране на поточно предаване на данни с помощта на онлайн обучение“.

Чуйте от самия д-р Саян какво можете да очаквате от неговия Power Talk:

Освен това бих препоръчал да отделите малко време и да гледате уебинара по-долу от Varun Khandelwal относно анализа на поточно предаване (това е добър предшественик на всяка сесия за инженеринг на данни):

„Всичко, което трябва да знаете за внедряването на модели за задълбочено обучение с помощта на обслужване на Tensorflow“ от Тата Ганеш

А, една от любимите ми теми — внедряване на модели за дълбоко обучение. Не се преподава в повечето онлайн курсове, не се говори много за него на срещи и доста амбициозни учени в областта на данните не са наясно с това. И въпреки това е ключова част от ВСЕКИ проект за задълбочено обучение в индустрията.

Има определени предизвикателства, с които може да се сблъскате при внедряването на тези модели за задълбочено обучение, като създаване на версии на модела, контейнеризиране на модела и т.н.

Уеб рамки като Flask и Django могат да се използват за обвиване на модела в REST API и излагане на API. Но това решение изисква разработчиците да пишат и поддържат код, за да обработват заявки към модела и да поддържат и други функции, свързани с внедряването.

За да се справи с този проблем, TensorFlow представи TensorFlow Serving, гъвкава, високопроизводителна система за обслужване на модели за машинно обучение, предназначена за производствени среди.

В тази хакерска сесия Тата Ганеш, старши инженер по машинно обучение в Capillary Technologies, ще ни помогне да разберем обслужването на TensorFlow и ще илюстрира функциите му, като използва примерен случай на употреба.

Ето какво има да каже той за хакерската сесия, слушайте!

„Внедряване на модели за задълбочено обучение в производство с помощта на PyTorch“ от Вишну Субраманиан

Друга наистина интригуваща хакерска сесия за внедряване на модели за дълбоко обучение — този път с помощта на PyTorch. Знаем колко е трудно да се предоставят прогнози с изкуствен интелект. Те идват с голямо разнообразие от предизвикателства, като:

  • Данните трябва да се намират от страна на клиента, което изисква моделът да работи на устройства като мобилни телефони, IoT устройства
  • Обработка на множество потребителски заявки
  • Работа с приложения, които могат да имат изисквания почти в реално време, когато времето за извеждане на модела може да бъде в рамките на няколко секунди

Решението за това е PyTorch. Той е изключително популярен сред изследователите, но производствените екипи са имали трудно време да превърнат най-новите изследвания в среда, удобна за производство.

От PyTorch 1.0 общността и няколко екипа от компании като Facebook и Microsoft положиха значителни усилия, за да направят по-лесна и безпроблемна производствена употреба.

И така, в тази хакерска сесия нашият лектор Вишну Субраманиан ще ви улесни да разгледате различни подходи за това как екипите могат да пуснат моделите си в производство.

Ключови изводи от хакерската сесия на Вишну са:

  1. Разположете модели на PyTorch с помощта на Flask
  2. Обработка на множество потребителски заявки
  3. Разберете как да използвате torch скрипт за запазване на обучения модел като графика и зареждането му на друг език като C++
  4. Намалете времето за извод чрез използване на техники за квантуване

И ако сте нов в PyTorch или имате нужда от бързо опресняване, ето идеалната статия, за да започнете:

Удобно за начинаещи ръководство за PyTorch и как работи от нулата

Крайни бележки

Инженерингът на данни е процъфтяваща област - и в момента в индустрията има множество свободни места. Сигурен съм, че вече сте разбрали това — ролята на инженера по данни е много по-широка от просто управление на работни потоци от данни, конвейери и процеси за извличане, трансформиране и зареждане (ETL).

Ако искате да овладеете Data Engineering, тогава започнете да учите веднага с тези невероятни сесии на DataHack Summit 2019. Това е място, където най-умните умове си сътрудничат, за да предоставят в реално време и практическо обучение по различни теми, свързани с приложното машинно обучение и Изкуствен интелект.

Резервирайте своето място на DataHack Summit 2019

Можете също да прочетете тази статия в ПРИЛОЖЕНИЕТО за Android на Analytics Vidhya

Свързани статии

Първоначално публикувано на https://www.analyticsvidhya.com на 5 ноември 2019 г.