Как давний разработчик Microsoft .NET, я уже некоторое время использую технологии Microsoft и их службы Azure. Я слышал, что Microsoft предлагает студию машинного обучения Azure [1], которая представляет собой интегрированную среду разработки на основе графического интерфейса для построения и реализации рабочего процесса машинного обучения в Azure, я хотел бы попробовать и посмотреть, как применить навыки, которые я изучил на естественном языке. на эту платформу.

Как это работает

Первоначально, изучая, как использовать Microsoft Azure Machine Learning Studio с NLP, я следовал этой хорошо написанной пошаговой учебной статье [2], предоставленной Microsoft. В качестве моего первого эксперимента с НЛП я упростил его и использовал набор данных из своего курсового проекта по текстовым информационным системам CS410 [3] в UIUC. Целью моего курсового проекта является создание поисковой системы для соискателей, чтобы найти работу, которой делятся пользователи Твиттера. Я уже собрал кучу твитов, связанных с объявлениями о вакансиях, из API Twitter и экспортировал их в набор данных в файле CSV [4]. Структура моего набора данных очень проста, и я хотел выполнить анализ текста, для которого твит-сообщение имеет отношение к информации о вакансии.

Спасибо за эту хорошо написанную учебную статью [2]. Я сразу же приступил к работе и выполнил описанные ниже шаги, чтобы создать свой первый эксперимент в Azure Machine Learning Studio.

Вот список шагов:

  1. Импорт набора данных из внешнего источника данных
  2. Очистить и предварительно обработать текстовый набор данных
  3. Извлечение функций N-Gram из предварительно обработанного текста
  4. Обучите модель классификацией или регрессией
  5. Оценка и проверка модели
  6. Разверните модель в API веб-службы.

Добро

Простой в использовании графический интерфейс и хорошо написанная документация

Я обнаружил, что процесс установки Azure Machine Learning Studio очень прост и удобен в использовании. Вы просто зарегистрировали учетную запись Машинного обучения Azure на веб-сайте портала [1]. А затем вы будете следовать пошаговым инструкциям мастера, чтобы создать свой первый экспериментальный проект. У вас есть возможность создать его с нуля или выбрать предустановленный шаблон. Microsoft проделала отличную работу, предоставив новичкам хорошо написанную документацию и учебные статьи, чтобы научиться пользоваться их платформой. Следуя одной из их обучающих статей, я смог сразу приступить к работе и последовал за ними, чтобы создать свой первый эксперимент, не утруждая себя чтением другой документации.

Красивый пользовательский интерфейс и рабочий процесс перетаскивания

Студия машинного обучения Azure — это инструмент интерфейса на основе графического интерфейса. Это сводит к минимуму ваши потребности в кодировании. Вместо этого вы перетаскиваете некоторые из предварительно созданных модулей в свое рабочее пространство и просто соединяете их стрелками. Затем вы настроите предоставленные параметры и/или выберите соответствующие параметры на панели свойств.

В каждом модуле данных имеется встроенная панель «визуализации», позволяющая изучить результирующий набор данных. Чрезвычайно полезно убедиться, что вы получили ожидаемые результаты на каждом этапе. Это также позволяет вам оптимизировать производительность, просто попробовав различные настройки параметров.

Готовые модули и наборы инструментов

На боковой панели доступно так много готовых модулей. Все распространенные функции машинного обучения готовы к использованию без необходимости написания кода. Функции включают доступ к данным, преобразование данных, машинное обучение и модули текстовой аналитики. Они также предоставляют языковые модули для разработчиков Python и R, если вы хотите расширить возможности по умолчанию, написав свои собственные модули.

Развертывание встроенного веб-сервиса

Я думаю, что одна из лучших функций, предоставляемых Azure Machine Learning Studio, заключается в том, что вы можете мгновенно развернуть обученную модель в качестве размещенной веб-службы в Azure. Это позволяет легко опубликовать вашу модель, просто нажав кнопку «Настройка веб-службы» внизу. Это мгновенно преобразует вашу модель из эксперимента в прогнозный эксперимент, который генерирует конечные точки веб-службы для вашей модели и используется другими. Эта веб-служба представляет собой готовые к работе и масштабируемые API, поскольку она является частью инфраструктуры Azure.

Плохой и Уродливый

Трудно отлаживать

Поскольку в Azure Machine Learning Studio используется подход, ориентированный на графический интерфейс, отлаживать предварительно созданные модули, предоставленные Microsoft, сложно. Эти модули как черный ящик, ты точно не знаешь, что внутри этих модулей и как они работают. Если что-то пойдет не так с Azure, практически невозможно отладить или изменить его. Я бы сказал, что это не удобный для разработчиков сервис.

Интегрировано только со службой Azure.

Поскольку это одна из служб, размещенных в Azure и тесно интегрированная с ее платформой, нет возможности экспортировать ваш проект и разместить его где-то еще, например в Amazon AWS или Google Cloud, или даже на вашем локальном сервере.

Моя последняя мысль

Microsoft предлагает надежный процесс и красивую платформу на основе графического интерфейса для ускорения и упрощения процесса разработки машинного обучения с помощью Azure Machine Learning Studio. Он предлагает удобный интерфейс перетаскивания с обширными встроенными опциями модуля для выполнения некоторых общих функций машинного обучения, таких как импорт и экспорт данных, предварительная обработка и очистка данных, анализ текста, обучение и оценка моделей машинного обучения и веб-приложений. развертывание службы. Это отличный инструмент как для опытного специалиста по данным, так и для новичка для создания сложного конвейера машинного обучения без какого-либо программирования. Это отличный инструмент для быстрого прототипирования, который служит готовой веб-службой за счет использования масштабируемой инфраструктуры Azure. Однако, если вы ищете платформу, которая удобна для разработчиков и позволяет вам писать свои собственные программы, используя любые библиотеки с открытым исходным кодом, и иметь возможность размещать их на любой платформе по вашему выбору. Затем следует рассмотреть другие альтернативы.

использованная литература

  1. Студия машинного обучения Azure: https://studio.azureml.net/
  2. Создайте модель анализа настроений в Azure Machine Learning Studio: https://docs.microsoft.com/en-us/azure/machine-learning/studio/text-analytics-module-tutorial.
  3. CS410 Текстовые информационные системы Курс: https://courses.engr.illinois.edu/cs410/sp2019/
  4. Набор данных твитов в формате CSV: https://cs410-switch-app.s3.amazonaws.com/switch_app_tweets_db_201911011145.csv