Открытый взлом автоматизированного машинного обучения

Открытый взлом Citizen Data Science

Введение

Хакатон по автоматизированному машинному обучению: научиться использовать модели сборки с автоматизированным машинным обучением и развертывать их в производственной среде.

Повестка дня

Введение в Openhack
Введение в машинное обучение Azure - 1 час
Введение в Machine Learning Ops - 1 час
Введение в пример использования Openhack - 4 часа
Развернуть модель - 1 час
Уборка - 15 минут
Резюме - 1 час

Сценарий использования

Прогнозирование роста населения на долгие годы. Прогнозирование численности населения позволяет экономисту узнать, как построить цепочку поставок нового поколения по всему миру.
Эта информация также позволяет странам и штатам планировать свое будущее в области здравоохранения, потребительского спроса и даже городского развития.
Постройте непрерывный конвейер
Перемещение данных из источника в Azure с помощью фабрики данных Azure
Обработка данных при перемещении в хранилище Azure
Мы можем использовать поток данных в фабрике данных для обработки данных для использования в машинном обучении.
ETL / Data Engineering - это область обработки данных
Нет необходимости форматировать данные для алгоритмов машинного обучения.
Табличных данных достаточно
Убедитесь, что все функции и этикетка доступны
Чтобы продемонстрировать операции с данными + операции машинного обучения
Сквозной процесс получения данных и обработки, а затем создание моделей машинного обучения и использование
Примечание: точность модели не важна
Мы используем регрессию в качестве выборки для прогнозирования численности населения.
Предположение - это исходные данные в наборе данных Azure Open и проверка конфигурации.

Архитектура

Ресурсы Azure

Учетная запись Azure - https://azure.microsoft.com/en-us/free/?WT.mc_id=A261C142F
Создайте группу ресурсов под названием automlopenhack - https://docs.microsoft.com/en-us/azure/azure-resource-manager/management/manage-resource-groups-portal#create-resource-groups
Создайте учетную запись хранилища Azure под названием automloutput - https://docs.microsoft.com/en-us/azure/storage/common/storage-account-create?tabs=azure-portal
Создайте фабрику данных Azure - automladfopenhack - https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-portal#create-a-data-factory
Конфигурация набора открытых данных Azure
Создание службы машинного обучения Azure - https://docs.microsoft.com/en-us/azure/machine-learning/quickstart-create-resources
Также создайте реестр контейнеров для хранения файлов рассола моделей.
Создайте вычислительный кластер - https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-attach-compute-cluster?tabs=python
Создайте Inference-кластер для AKS - https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-attach-kubernetes?tabs=azure-portal#create-a-new -aks-cluster
Список созданных ресурсов

Шаги

Создание конвейера копирования фабрики данных
Создать хранилище BLOB-объектов
Для URI: https://azureopendatastorage.blob.core.windows.net/
Для ключа SAS введите «»
Проведите тестовое соединение, чтобы убедиться, что соединение успешно
Создать источник большого двоичного объекта
сохранить ввод как azureopendataset

Выберите контейнер
Выберите или введите название контейнера как «censusdatacontainer».
Введите или выберите имя папки как «release / us_population_zip /».
В качестве имени файла введите «* .parquet» для паркета или, если вы видите файл ниже, выберите нужный, как показано ниже.
Имя и тип файлов могут изменяться, поскольку это набор данных с открытым исходным кодом.

Назовите его ADLSoutput
Выберите подписку и имя учетной записи хранения

Нажмите "Далее" и "Далее".
Оставить все по умолчанию
Нажмите Готово

Иногда это занимает от 15 до 20 минут или больше в зависимости от размера данных. Чтобы увеличить скорость, мы можем копировать с дополнительным блоком DIU или распараллеливать копирование.

Разработка модели

Теперь о настройках машинного обучения Azure

Давайте создадим установку
Сначала создайте набор данных и хранилище данных

Создайте вычисление cpu-compute
Использование от 0 до 2 узлов - это хорошо

После завершения эксперимента
обычно занимает от 2 до 3 часов

Проверьте объяснение или важность функции, чтобы увидеть, какие столбцы больше всего повлияли на прогноз.
Информация о модели журналов

Это те столбцы, которые нам нужно использовать

Развертывание модели

Выберите лучшую модель и разверните
Развернуть в кластере AKS
Создать кластер AKS
Перейдите в Compute и создайте кластер вывода.

Выберите конфигурацию Vm
Я выбираю Dev / Test, так как это для хакатона
Для производственного примечания необходимо создать не менее 12 узлов кластера AKS для высокой доступности.
Конфигурация производства ниже

Затем нажмите создать
Начато создание кластера AKS

Щелкните aksdeploy влево, чтобы перейти к информации о конечной точке.
После создания конечная точка будет создана

Щелкните вкладку Test
Введите следующую информацию

decennialTime : 2020 zipCode: 77480 race: WHITE ALONE sex: Female minAge: 56 maxAge: 59

Очистка

Удалить все ресурсы
Отбросьте всю группу ресурсов, чтобы избавиться от всех компонентов

Комментарии и обратная связь

Первоначально опубликовано на https://github.com.