Открытый взлом Citizen Data Science
Введение
Хакатон по автоматизированному машинному обучению: научиться использовать модели сборки с автоматизированным машинным обучением и развертывать их в производственной среде.
Повестка дня
- Введение в Openhack
- Введение в машинное обучение Azure - 1 час
- Введение в Machine Learning Ops - 1 час
- Введение в пример использования Openhack - 4 часа
- Развернуть модель - 1 час
- Уборка - 15 минут
- Резюме - 1 час
Сценарий использования
- Прогнозирование роста населения на долгие годы. Прогнозирование численности населения позволяет экономисту узнать, как построить цепочку поставок нового поколения по всему миру.
- Эта информация также позволяет странам и штатам планировать свое будущее в области здравоохранения, потребительского спроса и даже городского развития.
- Постройте непрерывный конвейер
- Перемещение данных из источника в Azure с помощью фабрики данных Azure
- Обработка данных при перемещении в хранилище Azure
- Мы можем использовать поток данных в фабрике данных для обработки данных для использования в машинном обучении.
- ETL / Data Engineering - это область обработки данных
- Нет необходимости форматировать данные для алгоритмов машинного обучения.
- Табличных данных достаточно
- Убедитесь, что все функции и этикетка доступны
- Чтобы продемонстрировать операции с данными + операции машинного обучения
- Сквозной процесс получения данных и обработки, а затем создание моделей машинного обучения и использование
- Примечание: точность модели не важна
- Мы используем регрессию в качестве выборки для прогнозирования численности населения.
- Предположение - это исходные данные в наборе данных Azure Open и проверка конфигурации.
Архитектура
Ресурсы Azure
- Учетная запись Azure - https://azure.microsoft.com/en-us/free/?WT.mc_id=A261C142F
- Создайте группу ресурсов под названием automlopenhack - https://docs.microsoft.com/en-us/azure/azure-resource-manager/management/manage-resource-groups-portal#create-resource-groups
- Создайте учетную запись хранилища Azure под названием automloutput - https://docs.microsoft.com/en-us/azure/storage/common/storage-account-create?tabs=azure-portal
- Создайте фабрику данных Azure - automladfopenhack - https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-portal#create-a-data-factory
- Конфигурация набора открытых данных Azure
- Создание службы машинного обучения Azure - https://docs.microsoft.com/en-us/azure/machine-learning/quickstart-create-resources
- Также создайте реестр контейнеров для хранения файлов рассола моделей.
- Создайте вычислительный кластер - https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-attach-compute-cluster?tabs=python
- Создайте Inference-кластер для AKS - https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-attach-kubernetes?tabs=azure-portal#create-a-new -aks-cluster
- Список созданных ресурсов
Шаги
- Создание конвейера копирования фабрики данных
- Создать хранилище BLOB-объектов
- Для URI: https://azureopendatastorage.blob.core.windows.net/
- Для ключа SAS введите «»
- Проведите тестовое соединение, чтобы убедиться, что соединение успешно
- Создать источник большого двоичного объекта
- сохранить ввод как azureopendataset
- Выберите контейнер
- Выберите или введите название контейнера как «censusdatacontainer».
- Введите или выберите имя папки как «release / us_population_zip /».
- В качестве имени файла введите «* .parquet» для паркета или, если вы видите файл ниже, выберите нужный, как показано ниже.
- Имя и тип файлов могут изменяться, поскольку это набор данных с открытым исходным кодом.
- Назовите его ADLSoutput
- Выберите подписку и имя учетной записи хранения
- Нажмите "Далее" и "Далее".
- Оставить все по умолчанию
- Нажмите Готово
Иногда это занимает от 15 до 20 минут или больше в зависимости от размера данных. Чтобы увеличить скорость, мы можем копировать с дополнительным блоком DIU или распараллеливать копирование.
Разработка модели
Теперь о настройках машинного обучения Azure
- Давайте создадим установку
- Сначала создайте набор данных и хранилище данных
- Создайте вычисление cpu-compute
- Использование от 0 до 2 узлов - это хорошо
- После завершения эксперимента
- обычно занимает от 2 до 3 часов
- Проверьте объяснение или важность функции, чтобы увидеть, какие столбцы больше всего повлияли на прогноз.
- Информация о модели журналов
- Это те столбцы, которые нам нужно использовать
Развертывание модели
- Выберите лучшую модель и разверните
- Развернуть в кластере AKS
- Создать кластер AKS
- Перейдите в Compute и создайте кластер вывода.
- Выберите конфигурацию Vm
- Я выбираю Dev / Test, так как это для хакатона
- Для производственного примечания необходимо создать не менее 12 узлов кластера AKS для высокой доступности.
- Конфигурация производства ниже
- Затем нажмите создать
- Начато создание кластера AKS
- Щелкните aksdeploy влево, чтобы перейти к информации о конечной точке.
- После создания конечная точка будет создана
- Щелкните вкладку Test
- Введите следующую информацию
decennialTime : 2020 zipCode: 77480 race: WHITE ALONE sex: Female minAge: 56 maxAge: 59
Очистка
- Удалить все ресурсы
- Отбросьте всю группу ресурсов, чтобы избавиться от всех компонентов
Комментарии и обратная связь
Первоначально опубликовано на https://github.com.