Семинар по прогнозированию рейсов с использованием Azure Machine Learning Studio

Microsoft Azure быстро набирает популярность, и ее используют 85% компаний из списка Fortune 500. Azure — это гораздо больше, чем просто облачный сервис. Он имеет несколько инструментов для искусственного интеллекта, Интернета вещей и многого другого. Студия машинного обучения — это программа для создания интерактивных блок-схем, которую можно использовать для простого анализа данных и проверки эффективности алгоритмов. Эта статья предназначена для MSP, увлеченных машинным обучением, которые испытывают трудности с организацией семинара. Упражнение основано на наборе данных о своевременности выполнения полетов (необработанных данных), который можно найти в Azure.

1. Войдите в Azure studdio.

2. Откройте пустой эксперимент

3. Выберите набор данных

В сохраненных наборах данных выберите параметр «Срок выполнения полета (исходный)» и перетащите поле в пустое место блок-схемы.

Целью семинара является улучшение предсказания 15-минутной задержки прибытия (столбец: ArrDel15) без доступа к функциям прибытия и отправления.

4. Визуализируйте данные

Щелчок правой кнопкой мыши на поле набора данных предоставляет возможность визуализации данных. Это важный шаг в понимании особенностей и выборе необходимых, которые могут сделать точные прогнозы.

5. Предварительная обработка данных

Студия машинного обучения упрощает работу с данными благодаря встроенным модулям, которые можно использовать для выбора только определенных функций и разделения данных на обучение и тестирование. Для семинара было обязательно использовать разделение 70%-30%, которое показано ниже со значением 0,7 для доли строк.

Чтобы усложнить задачу и побудить участников экспериментировать со многими изменениями, функции отправления и прибытия (DepDelay, DepDel15, ArrDelay, Cancelled, Diverted) удаляются из данных для более сложных прогнозов.

6. Обучение модели

Учебный модуль используется для применения набора данных к алгоритму машинного обучения. Данные обучения и алгоритм связаны в тренировочном блоке. Прогнозируемый объект (ArrDel 15) должен быть выбран для функций поезда, чтобы использовать его в качестве выходных данных. Участникам предлагается поэкспериментировать с различными алгоритмами классификации и их параметрами.

7. Оценка и подсчет очков

Модели оценки и оценки можно выбрать в разделе «Машинное обучение» в списке. Окно оценки используется для применения обученной модели к данным тестирования, а модель оценки вычисляет точность и AUC (площадь под кривой). После соединения ящиков с помощью стрелок между модулями эксперимент реализуется с помощью опции RUN внизу изображения.

После запуска эксперимента результаты можно визуализировать, щелкнув правой кнопкой мыши модель оценки. Важными параметрами являются AUC и Accuracy. Они используются для оценки и ранжирования модели и являются критериями для выбора победителя. Наиболее важным параметром является AUC, на который не влияет пороговое значение, и он обозначает площадь под синей кривой на диаграмме.

8. Оптимизация модели

Целью упражнения является максимизация предсказания AUC для 15-минутной задержки прибытия (столбец: ArrDel15). Победитель конкурса способен улучшить модель машинного обучения и лучше понять набор данных. В нашем семинаре соревнование длилось 40 минут и включало MSP, которые помогали людям с теорией и продвигали полезность и удобство использования студии. Победитель получил ваучер Amazon на 10 фунтов стерлингов.

Возможные способы улучшения включают:

Более чистые данные (более сбалансированные данные, обработка отсутствующих записей данных, удаление выбросов и т. д.)
Выбор столбцов, важных для вашего прогноза
Различные алгоритмы машинного обучения
Настройка параметров алгоритма машинного обучения

Контакты:

Линкедин

Не стесняйтесь обращаться ко мне по любым вопросам, касающимся семинара, и если вам нужна помощь в организации мероприятия. Кредит принадлежит MSP в Массачусетском технологическом институте и их потрясающей помощи в организации мероприятия.