Открытый взлом Citizen Data Science

Введение

Хакатон по автоматизированному машинному обучению: научиться использовать модели сборки с автоматизированным машинным обучением и развертывать их в производственной среде.

Повестка дня

  • Введение в Openhack
  • Введение в машинное обучение Azure - 1 час
  • Введение в Machine Learning Ops - 1 час
  • Введение в пример использования Openhack - 4 часа
  • Развернуть модель - 1 час
  • Уборка - 15 минут
  • Резюме - 1 час

Сценарий использования

  • Прогнозирование роста населения на долгие годы. Прогнозирование численности населения позволяет экономисту узнать, как построить цепочку поставок нового поколения по всему миру.
  • Эта информация также позволяет странам и штатам планировать свое будущее в области здравоохранения, потребительского спроса и даже городского развития.
  • Постройте непрерывный конвейер
  • Перемещение данных из источника в Azure с помощью фабрики данных Azure
  • Обработка данных при перемещении в хранилище Azure
  • Мы можем использовать поток данных в фабрике данных для обработки данных для использования в машинном обучении.
  • ETL / Data Engineering - это область обработки данных
  • Нет необходимости форматировать данные для алгоритмов машинного обучения.
  • Табличных данных достаточно
  • Убедитесь, что все функции и этикетка доступны
  • Чтобы продемонстрировать операции с данными + операции машинного обучения
  • Сквозной процесс получения данных и обработки, а затем создание моделей машинного обучения и использование
  • Примечание: точность модели не важна
  • Мы используем регрессию в качестве выборки для прогнозирования численности населения.
  • Предположение - это исходные данные в наборе данных Azure Open и проверка конфигурации.

Архитектура

Ресурсы Azure

Шаги

  • Создание конвейера копирования фабрики данных
  • Создать хранилище BLOB-объектов
  • Для URI: https://azureopendatastorage.blob.core.windows.net/
  • Для ключа SAS введите «»
  • Проведите тестовое соединение, чтобы убедиться, что соединение успешно
  • Создать источник большого двоичного объекта
  • сохранить ввод как azureopendataset

  • Выберите контейнер
  • Выберите или введите название контейнера как «censusdatacontainer».
  • Введите или выберите имя папки как «release / us_population_zip /».
  • В качестве имени файла введите «* .parquet» для паркета или, если вы видите файл ниже, выберите нужный, как показано ниже.
  • Имя и тип файлов могут изменяться, поскольку это набор данных с открытым исходным кодом.

  • Назовите его ADLSoutput
  • Выберите подписку и имя учетной записи хранения

  • Нажмите "Далее" и "Далее".
  • Оставить все по умолчанию
  • Нажмите Готово

Иногда это занимает от 15 до 20 минут или больше в зависимости от размера данных. Чтобы увеличить скорость, мы можем копировать с дополнительным блоком DIU или распараллеливать копирование.

Разработка модели

Теперь о настройках машинного обучения Azure

  • Давайте создадим установку
  • Сначала создайте набор данных и хранилище данных

  • Создайте вычисление cpu-compute
  • Использование от 0 до 2 узлов - это хорошо

  • После завершения эксперимента
  • обычно занимает от 2 до 3 часов

  • Проверьте объяснение или важность функции, чтобы увидеть, какие столбцы больше всего повлияли на прогноз.
  • Информация о модели журналов

  • Это те столбцы, которые нам нужно использовать

Развертывание модели

  • Выберите лучшую модель и разверните
  • Развернуть в кластере AKS
  • Создать кластер AKS
  • Перейдите в Compute и создайте кластер вывода.

  • Выберите конфигурацию Vm
  • Я выбираю Dev / Test, так как это для хакатона
  • Для производственного примечания необходимо создать не менее 12 узлов кластера AKS для высокой доступности.
  • Конфигурация производства ниже

  • Затем нажмите создать
  • Начато создание кластера AKS

  • Щелкните aksdeploy влево, чтобы перейти к информации о конечной точке.
  • После создания конечная точка будет создана

  • Щелкните вкладку Test
  • Введите следующую информацию

decennialTime : 2020 zipCode: 77480 race: WHITE ALONE sex: Female minAge: 56 maxAge: 59

Очистка

  • Удалить все ресурсы
  • Отбросьте всю группу ресурсов, чтобы избавиться от всех компонентов

Комментарии и обратная связь

Первоначально опубликовано на https://github.com.