Microsoft Azure быстро набирает популярность, и ее используют 85% компаний из списка Fortune 500. Azure — это гораздо больше, чем просто облачный сервис. Он имеет несколько инструментов для искусственного интеллекта, Интернета вещей и многого другого. Студия машинного обучения — это программа для создания интерактивных блок-схем, которую можно использовать для простого анализа данных и проверки эффективности алгоритмов. Эта статья предназначена для MSP, увлеченных машинным обучением, которые испытывают трудности с организацией семинара. Упражнение основано на наборе данных о своевременности выполнения полетов (необработанных данных), который можно найти в Azure.
1. Войдите в Azure studdio.
2. Откройте пустой эксперимент
3. Выберите набор данных
В сохраненных наборах данных выберите параметр «Срок выполнения полета (исходный)» и перетащите поле в пустое место блок-схемы.
Целью семинара является улучшение предсказания 15-минутной задержки прибытия (столбец: ArrDel15) без доступа к функциям прибытия и отправления.
4. Визуализируйте данные
Щелчок правой кнопкой мыши на поле набора данных предоставляет возможность визуализации данных. Это важный шаг в понимании особенностей и выборе необходимых, которые могут сделать точные прогнозы.
5. Предварительная обработка данных
Студия машинного обучения упрощает работу с данными благодаря встроенным модулям, которые можно использовать для выбора только определенных функций и разделения данных на обучение и тестирование. Для семинара было обязательно использовать разделение 70%-30%, которое показано ниже со значением 0,7 для доли строк.
Чтобы усложнить задачу и побудить участников экспериментировать со многими изменениями, функции отправления и прибытия (DepDelay, DepDel15, ArrDelay, Cancelled, Diverted) удаляются из данных для более сложных прогнозов.
6. Обучение модели
Учебный модуль используется для применения набора данных к алгоритму машинного обучения. Данные обучения и алгоритм связаны в тренировочном блоке. Прогнозируемый объект (ArrDel 15) должен быть выбран для функций поезда, чтобы использовать его в качестве выходных данных. Участникам предлагается поэкспериментировать с различными алгоритмами классификации и их параметрами.
7. Оценка и подсчет очков
Модели оценки и оценки можно выбрать в разделе «Машинное обучение» в списке. Окно оценки используется для применения обученной модели к данным тестирования, а модель оценки вычисляет точность и AUC (площадь под кривой). После соединения ящиков с помощью стрелок между модулями эксперимент реализуется с помощью опции RUN внизу изображения.
После запуска эксперимента результаты можно визуализировать, щелкнув правой кнопкой мыши модель оценки. Важными параметрами являются AUC и Accuracy. Они используются для оценки и ранжирования модели и являются критериями для выбора победителя. Наиболее важным параметром является AUC, на который не влияет пороговое значение, и он обозначает площадь под синей кривой на диаграмме.
8. Оптимизация модели
Целью упражнения является максимизация предсказания AUC для 15-минутной задержки прибытия (столбец: ArrDel15). Победитель конкурса способен улучшить модель машинного обучения и лучше понять набор данных. В нашем семинаре соревнование длилось 40 минут и включало MSP, которые помогали людям с теорией и продвигали полезность и удобство использования студии. Победитель получил ваучер Amazon на 10 фунтов стерлингов.
Возможные способы улучшения включают:
- Более чистые данные (более сбалансированные данные, обработка отсутствующих записей данных, удаление выбросов и т. д.)
- Выбор столбцов, важных для вашего прогноза
- Различные алгоритмы машинного обучения
- Настройка параметров алгоритма машинного обучения
Контакты:
Не стесняйтесь обращаться ко мне по любым вопросам, касающимся семинара, и если вам нужна помощь в организации мероприятия. Кредит принадлежит MSP в Массачусетском технологическом институте и их потрясающей помощи в организации мероприятия.