MLOps и рабочие процессы с данными — одна из самых популярных тем 2022 года. Вот лишь образец из 15 из более чем 110 бесплатных общих докладов и докладов MLOps от лидеров MLOps, которые вы просто не должны пропустить 19–21 апреля на ODSC East 2022. Получите бесплатный Bronze Pass и посетите его лично или виртуально.

Примечание редактора. Тезисы сокращаются. Пожалуйста, ознакомьтесь с нашим расписанием полных тезисов.

№1. MLOps: уменьшение технического долга в машинном обучении с помощью MLflow, Delta и Databricks.

Шон Оуэн | Главный архитектор решений машинного обучения | Блоки данных
Иньси Чжан | Старший специалист по данным | Блоки данных

MLOps — горячая тема, поскольку команды борются с машинным обучением. Теперь им нужны инструменты мониторинга, происхождения и развертывания, а не только библиотеки моделирования. В этом докладе представлены инструменты от Databricks, такие как MLflow и Delta с открытым исходным кодом, а также Feature Store, и то, как они помогают смягчить болевые точки MLOps.

№ 2: Обнаружение дрейфа в структурированных и неструктурированных данных:

Киган Хайнс, доктор философии | вице-президент по машинному обучению/адъюнкт-профессор/кафедра | АртурАИ/Джорджтаун/КАМЛИС

Системы машинного обучения в производственной среде подвержены снижению производительности из-за многих внешних факторов, и крайне важно активно отслеживать стабильность и целостность системы. Распространенным источником ухудшения модели является присущая реальной среде нестационарность, обычно называемая дрейфом данных. В этой презентации я опишу, как надежно измерить дрейф данных в различных парадигмах данных, включая табличные данные, данные компьютерного зрения и данные НЛП. Из этих докладов MLOps участники получат концептуальный набор инструментов для размышлений о мониторинге стабильности данных в своих собственных моделях с примерами использования в обычных условиях, а также в более сложных режимах.

№3. Полнофункциональное машинное обучение для специалистов по обработке и анализу данных.

Хьюго Боун-Андерсон | руководитель отдела науки о данных, евангелист | Outerbounds
Вилле Туулос | соучредитель | Внешние границы

Мы представим общий обзор 8 уровней стека машинного обучения: данные, вычисления, управление версиями, оркестровка, архитектура программного обеспечения, операции с моделями, разработка функций и разработка моделей. Мы представим схему того, над какими слоями должны работать специалисты по данным, а затем познакомим участников с инструментами и рабочим процессом. При этом мы представим широко применимый стек, который обеспечивает наилучший пользовательский опыт для специалистов по обработке и анализу данных, позволяя им сосредоточиться на тех частях, которые им нравятся (моделирование с использованием их любимых готовых библиотек), предоставляя при этом надежные встроенные решения. для базовой инфраструктуры.

  • Урок 1. Машинное обучение на ноутбуке (обновление)
  • Урок 2. Рабочие процессы машинного обучения и DAG
  • Урок 3: Взрыв в облаке
  • Урок 4 (необязательно и если позволяет время): интеграция других инструментов в конвейеры машинного обучения

Мы также увидим, как начать интегрировать в наши пайплайны другие инструменты, такие как dbt для преобразования данных, большие ожидания для проверки данных, Weights & Biases для отслеживания экспериментов и Amazon Sagemaker для развертывания моделей.

#4: Векторные базы данных с использованием Weaviate:

Лора Хэм | Специалист по данным | Технологии СеМИ

В машинном обучении, например. инструменты рекомендаций или классификации данных, данные часто представляются в виде многомерных векторов. Эти векторы хранятся в так называемых векторных базах данных. С векторными базами данных вы можете эффективно запускать алгоритмы поиска, ранжирования и рекомендаций. Таким образом, векторные базы данных стали основой развертывания машинного обучения в отрасли.

В этой серии бесплатных докладов о MLOps речь пойдет о векторных базах данных. Если вы специалист по данным или инженер по данным/программному обеспечению, эта сессия будет вам интересна. Вы узнаете, как легко запускать свои любимые модели машинного обучения с векторной базой данных Weaviate. Вы получите обзор того, что может предложить векторная база данных, такая как Weaviate: семантический поиск, ответы на вопросы, классификация данных, распознавание именованных объектов, мультимодальный поиск и многое другое. После этого сеанса вы сможете загружать свои собственные данные и запрашивать их с помощью предпочитаемой вами модели машинного обучения!

№5. Вавилонская башня. Как заставить Apache Spark, Apache Mahout, Kubeflow и Kubernetes работать хорошо:

Тревор Грант | Управляющий партнер | Аборигенный броненосец

Работать с матрицами больших данных сложно, Kubernetes позволяет пользователям эластично масштабироваться, но может иметь только модуль размером с узел, который может быть недостаточно большим, чтобы поместить матрицу в память. В то время как Kubernetes допускает другие парадигмы поверх него, что позволяет модулям координировать отдельные задачи, настроить их и заставить работать с платформами ML не так просто. Используя Apache Spark и Apache Mahout, мы можем работать с матрицами любого размера и распределять их по неограниченному количеству модулей/узлов, а также мы можем использовать Kubeflow, чтобы сделать нашу работу быстрой и легко воспроизводимой. В этой серии бесплатных докладов о MLOps мы обсудим, как мы использовали Apache Spark и Mahout для шумоподавления изображений DICOM легких пациентов с COVID, и опубликовали наш Pipeline с Kubeflow, чтобы сделать процесс легко воспроизводимым, что может помочь врачам в больницах с ограниченными ресурсами. , а также другие исследователи, стремящиеся автоматизировать обнаружение COVID.

#6: Удобная для человека и готовая к производству наука о данных с помощью Metaflow:

Вилле Туулос | соучредитель | Внешние границы

Существует острая потребность в инструментах и ​​рабочих процессах, которые удовлетворят специалистов по обработке и анализу данных там, где они есть. Это также серьезная бизнес-потребность: как позволить организации специалистов по данным, которые не являются инженерами-программистами по образованию, самостоятельно создавать и развертывать сквозные рабочие процессы и приложения машинного обучения. В этой серии бесплатных докладов о MLOps мы обсуждаем область проблем и подход, который мы использовали для ее решения с помощью Metaflow, платформы с открытым исходным кодом, которую мы разработали в Netflix, которая теперь лежит в основе сотен критически важных для бизнеса проектов ML в Netflix и других компаниях. биоинформатики и дронов в недвижимость. Мы хотели предоставить наилучший пользовательский опыт для специалистов по данным, позволяя им сосредоточиться на тех частях, которые им нравятся (моделирование с использованием их любимых готовых библиотек), и в то же время предоставляя надежные встроенные решения для базовой инфраструктуры: данные, вычисления, оркестровка. и версии. В этом разговоре вы узнаете о:

  • Чего ожидать от современного стека инфраструктуры машинного обучения.
  • Использование таких инструментов, как Metaflow, для повышения производительности вашей организации, занимающейся наукой о данных, на основе уроков, извлеченных из Netflix и многих других компаний.
  • Стратегии развертывания полного стека инфраструктуры машинного обучения, которые хорошо сочетаются с вашими существующими системами и политиками.

№ 7: Quine: потоковый график с открытым исходным кодом для конвейеров данных, управляемых событиями:

Райан Райт | Основатель и генеральный директор | эта точка

В этом выступлении мы объясним, как Quine работает под капотом, обсудим некоторые интересные и сложные задачи, с которыми нам пришлось столкнуться, чтобы создать его, и покажем несколько вариантов использования, чтобы проиллюстрировать, почему это важно для современных конвейеров данных. Quine реализует модель данных графа свойств поверх вычислительной модели асинхронного графа. Это как Прегель с Актерами. Каждый узел способен выполнять произвольные вычисления, поэтому мы можем добавить некоторые мощные возможности глубоко в граф, а затем упаковать их для удобства использования в рецепты, добавленные пользователями, доступные в репозитории Github. Quine бесплатен и открыт для всех, доступен на https://quine.io и активно поддерживается thatDot и сообществом.

№8. Разработка, развертывание и управление моделями в масштабе с помощью SAS.

Маринела Профи | Менеджер по маркетингу продуктов | САС

Существует яркая экосистема вариантов, доступных для специалистов по обработке и анализу данных для выполнения своей работы. Сюда входят языки программирования, такие как Python, R и Java, а также интегрированные среды разработки, технологии развертывания, виртуальные машины, Kubernetes и многое другое.

Хотя этот выбор создает множество возможностей, он также может привести к усталости от вариантов, что приводит к переполненности и неравномерности ландшафта, что затрудняет масштабирование аналитики и создание ценности для бизнеса. В этой серии бесплатных докладов о MLOps аналитик данных Маринела Профи объяснит, как ModelOps и MLOps могут помочь вам оптимизировать и упростить процесс. Она обсудит разницу между двумя подходами и важную роль, которую они играют в решении общих проблем с жизненным циклом машинного обучения. Сделав еще один шаг вперед, она представит концепцию аналитической платформы для разработки, развертывания и мониторинга любого типа модели, чтобы принять подход полного жизненного цикла. Она также обсудит, как интегрировать различные пакеты с открытым исходным кодом и обеспечить соблюдение передовых методов управления моделями и аудита.

#9:Наука о данных в эпоху облачных вычислений

Юань Тан | Инженер-основатель/сопредседатель | Акуити / Кубефлоу

В последние годы достижения в области науки о данных достигли огромного прогресса, но разработка крупномасштабных приложений для обработки данных и машинного обучения по-прежнему остается сложной задачей. Разнообразие сред машинного обучения, аппаратных ускорителей, поставщиков облачных услуг, а также сложность рабочих процессов обработки данных ставят перед MLOps новые задачи. Для специалистов по данным нетривиально легко запускать, управлять, отслеживать и оптимизировать свои конвейеры с возможностью масштабирования. С другой стороны, Kubernetes и контейнеризация произвели революцию в облачных приложениях, невиданную со времен Linux и разрушения рынка серверов виртуализацией. В этом выступлении мы представим обзор существующих доступных инструментов и лучших практик для эффективного выполнения MLOps в эпоху облачных вычислений.

№10. Наблюдаемость ИИ: как исправить проблемы с вашей моделью машинного обучения.

Дэнни Д. Лейбзон | Архитектор MLOps | ПочемуLabs

Когда модели машинного обучения внедряются в производство, их производительность начинает снижаться. Теперь, когда модели машинного обучения становятся все более важными как для предприятий, так и для стартапов, анализ первопричин и обеспечение наблюдаемости в ваших системах искусственного интеллекта также имеют решающее значение. Однако многие организации изо всех сил пытаются предотвратить ухудшение производительности моделей и обеспечить качество данных, поступающих в их модели ML, в основном потому, что у них нет для этого инструментов и организационных знаний.

В этой серии бесплатных докладов о MLOps архитектор MLOps Дэнни Д. Лейбзон расскажет о проблемах, связанных с моделями машинного обучения, развернутыми в производственной среде, и о том, сколько из этих проблем можно решить с помощью передовых методов мониторинга данных и наблюдения ИИ. Сделав еще один шаг, спикер обсудит шаги, которые могут предпринять специалисты по данным и инженеры по машинному обучению, чтобы заранее обеспечить производительность своих моделей, а не реагировать на последствия снижения производительности, о которых сообщают их клиенты».

№11. На моем ноутбуке все заработало. Что теперь? Использование OS Tool MLRun для автоматизации пути к производству:

Марсело Литовский | Директор по продажам | Игуацио

MLRun — это среда оркестрации MLOps с открытым исходным кодом. Он существует для ускорения интеграции приложений AI/ML в существующие бизнес-процессы. MLRun знакомит специалистов по данным с простым Python SDK, который преобразует их код в приложение производственного качества. Это достигается путем абстрагирования множества уровней, задействованных в конвейере MLOps. Разработчики могут создавать, тестировать и настраивать свою работу в любом месте и использовать MLRun для интеграции с другими компонентами своего бизнес-процесса. Возможности MLRun обширны, и мы рассмотрим основы, чтобы вы могли начать. Вы покинете эту сессию с достаточным количеством информации, чтобы:

  • Начните работу с MLRun самостоятельно за 10 минут, чтобы автоматизировать и ускорить переход к производству
  • Выполнить локальный перенос в Kubernetes
  • Поймите, как ваш код Python может работать как задание Kubernetes без изменений кода.
  • Отслеживайте свои эксперименты
  • Получите представление о продвинутых темах MLOps

№12: MLOps помимо обучения: упрощение и автоматизация рабочего конвейера: Ярон Хавив | соучредитель и технический директор | Игуацио

На этом занятии мы опишем проблемы, связанные с внедрением машин и глубокого обучения. Мы объясним производственный подход к конвейерам MLOps — используя модульную стратегию, в которой различные компоненты обеспечивают непрерывный, автоматизированный и гораздо более простой способ перехода от исследований и разработок к масштабируемым производственным конвейерам. Без необходимости проводить рефакторинг кода, добавлять связующую логику и тратить значительные усилия на разработку данных и машинного обучения.

В этой серии бесплатных докладов о MLOps мы рассмотрим различные реальные реализации и примеры, а также обсудим различные этапы, включая автоматизацию создания функций с использованием хранилища функций, построение автоматизации CI/CD для моделей и приложений, развертывание конвейеров приложений в реальном времени. , наблюдение за моделью и результатами приложения, создание цикла обратной связи и повторное обучение на свежих данных.

№ 13. Упрощение MLOps за счет устранения проблем с хранением в уравнении:

Мирослав Кливанский | Евангелист полевых решений, искусственный интеллект и аналитика | Чистое хранилище

Когда дело доходит до MLops, хранилище и данные связаны, но далеко не одно и то же. Мы здесь, чтобы помочь вам сосредоточиться на данных и не думать о хранении. Мы собираемся сделать это двумя способами: во-первых, мы покажем вам, как Pure уходит с пути науки о данных. Во-вторых, мы покажем вам, как Pure обеспечивает современный опыт работы с данными. Это сочетание приводит к более быстрому получению информации и быстрому внедрению большего количества моделей в рабочую среду.

№14. Ускорение MLOps с помощью Kubernetes, CI/CD и GitOps

Субин Модель | Менеджер по продукту | OpenShift

MLOps требует сотрудничества между учеными, разработчиками, инженерами по машинному обучению, ИТ-операциями и различными технологиями DevOps. Это может потребовать значительных усилий и координации. В этой серии бесплатных докладов о MLOps мы кратко обсудим, как специалисты по данным создают, тестируют и обучают модели машинного обучения на гибридных облачных платформах Kubernetes, таких как Red Hat OpenShift. Далее мы рассмотрим, как интегрированные возможности DevOps CI/CD в Red Hat OpenShiftⓇ (т. е. GitOps и Pipelines) позволяют нам автоматизировать и ускорить интеграцию моделей машинного обучения в процесс разработки приложений. В конечном счете, эти возможности обеспечивают согласованное масштабируемое развертывание приложений, что также помогает ускорить частое повторное развертывание обновленных моделей машинного обучения в рабочей среде.

№15. Воспроизводимость, конвейеры машинного обучения и CI/CD в проектах компьютерного зрения.

Алекс Ким | Инженер по решениям | Итеративный.ai

За последние несколько лет обучение хорошо работающей модели компьютерного зрения (CV) в Jupyter Notebooks стало довольно простым, если вы используете предварительно обученные модели глубокого обучения и библиотеки высокого уровня, которые абстрагируются от большей части сложности (fastai, keras, Pytorch-lightning). это всего лишь несколько примеров). Трудная часть по-прежнему заключается в том, чтобы включить эту модель в приложение, которое работает в производственной среде, принося пользу клиентам и нашему бизнесу. Типичный жизненный цикл проекта машинного обучения состоит из 3 фаз, которые мы рассмотрим более подробно:

  • Фаза активного исследования или проверки концепции.
  • Этап разработки приложения.
  • Этап развертывания производства.

В этой серии бесплатных докладов о MLOps я опишу подход, оптимизирующий все три этапа. Для нашего демонстрационного проекта я выбрал очень распространенный шаблон развертывания в проектах CV: модель CV, обернутая в службу веб-API. Автоматическое обнаружение дефектов — это пример проблемы, которую я решаю с помощью этого шаблона.

Я предполагаю, что целевой аудиторией этого доклада будут технические специалисты (например, инженеры-программисты, инженеры по машинному обучению, специалисты по данным), которые знакомы с общими концепциями машинного обучения, программированием на Python, процессами CI/CD и облачной инфраструктурой.

Зарегистрируйтесь на ODSC East 2022 и посмотрите все эти бесплатные доклады о MLOps

Мы только что перечислили несколько интересных докладов, которые пройдут на ODSC East 2022 с 19 по 21 апреля — и все вышеперечисленное можно будет увидеть бесплатно, если вы зарегистрируетесь в Bronze Pass. Вы по-прежнему можете перейти на учебный абонемент со скидкой 30 % и получить доступ ко всем нашим вариантам обучения машинному обучению. Сеансы включают:

  • Учебное пособие. Создание и развертывание моделей машинного обучения с помощью TensorFlow и Keras
  • Устали от очистки ваших данных? Будьте уверены в данных с помощью типов объектов
  • Будущее разработки программного обеспечения с использованием машинного программирования
  • Рассказывая истории с данными
  • Скульптурные данные для машинного обучения: первый акт машинного обучения
  • Обзор методов обработки пропущенных значений
  • Обзор геокомпьютинга и GeoAI в Национальной лаборатории Ок-Риджа: использование в масштабе, в любое время и в любом месте
  • Сетевой анализ стал проще
  • Освоение повышения градиента с помощью CatBoost
  • Машинное обучение для трейдинга
  • Машинное обучение для причинно-следственных связей
  • Введение в Scikit-learn: машинное обучение в Python
  • Промежуточное машинное обучение с помощью Scikit-learn: оценка, калибровка и проверка
  • Промежуточное машинное обучение с помощью Scikit-learn: перекрестная проверка, настройка параметров, совместимость с Pandas и пропущенные значения
  • Сквозное машинное обучение с XGBoost
  • Помимо основ: визуализация данных в Python
  • Автоматизация для специалистов по данным
  • Введение в обнаружение дрейфа
  • Расширенное машинное обучение с помощью Scikit-learn: текстовые данные, несбалансированные данные и регрессия Пуассона