Microsoft Azure бързо набира популярност и се използва от 85% от компаниите от Fortune 500. Azure е много повече от облачна услуга. Има множество инструменти за AI, IoT и много други. Machine Learning Studio е интерактивен софтуер за блок-схеми, който може да се използва за лесно извършване на анализ на данни и тестване на ефективността на алгоритмите. Тази статия е насочена към MSP, запалени по машинното обучение, които имат трудности при организирането на семинар. Упражнението се основава на набор от данни за ефективността на полета (Raw), който може да бъде намерен в Azure.

1. Влезте в Azure studio

2. Отворете празен експеримент

3. Изберете Набор от данни

От запаметените набори от данни изберете опцията за изпълнение на времето на полета (Raw) и плъзнете полето до празното пространство на блок-схемата.

Целта на семинара е да се подобри прогнозата за 15 минути закъснение на пристигане (Колона: ArrDel15) без достъп до функциите за пристигане и заминаване.

4. Визуализирайте данните

Щракването с десния бутон върху полето с набор от данни представя опцията за визуализиране на данните. Това е важна стъпка в разбирането на функциите и избора на необходимите, които могат да направят точни прогнози.

5. Предварителна обработка на данни

ML studio прави манипулирането на данни много лесно с вградени модули, които могат да се използват за избор само на специфични функции и разделяне на данните на обучение и тестване. За семинара беше задължително да се използва 70%-30% разделяне, което е показано по-долу със стойност 0,7 за част от редовете.

За да се увеличи трудността на задачата и да се предизвикат участниците да се включат в експериментиране с много промени, функциите за заминаване и пристигане (DepDelay, DepDel15, ArrDelay, Cancelled, Diverted) се премахват от данните за по-трудни прогнози.

6. Обучение на модела

Модулът за обучение се използва за прилагане на набора от данни върху алгоритъм за машинно обучение. Данните за обучение и алгоритъм са свързани в полето за обучение. Характеристиката, която е предвидена (ArrDel 15), трябва да бъде избрана за функциите на влака, за да се използва като изход. Участниците се насърчават да експериментират с различни алгоритми за класификация и техните параметри.

7. Оценяване и точкуване

Резултатът и моделите за оценка могат да бъдат избрани от секцията Машинно обучение в списъка. Кутията с резултати се използва за прилагане на обучения модел върху данните от тестването, а моделът за оценка изчислява точността и AUC (площта под кривата). След свързване на кутиите с помощта на стрелките между модулите, експериментът се реализира с помощта на опцията RUN в долната част на изображението.

След провеждане на експеримента резултатите могат да бъдат визуализирани чрез щракване с десния бутон върху модела за оценка. Важните параметри включват AUC и точност. Те се използват за оценка и класиране на модел и са критериите за избор на победител. Най-важният параметър е AUC, който не се влияе от прага и означава площта под синята крива на диаграмата.

8. Оптимизация на модела

Целта на упражнението е да се увеличи максимално AUC прогнозата за 15 минути закъснение при пристигане (Колона: ArrDel15). Победителят в състезанието може да подобри модела за машинно обучение и да разбере по-добре набора от данни. В нашия семинар състезанието продължи 40 минути и включваше MSP, които помагаха на хората с теория и популяризираха полезността и използваемостта на студиото. Победителят получи ваучер от Amazon за £10.

Възможните начини за подобряване включват:

  1. По-чисти данни (по-балансирани данни, обработка на липсващи въведени данни, премахване на отклонения и т.н.)
  2. Избор на колони, които са значими за вашата прогноза
  3. Различни алгоритми за машинно обучение
  4. Настройка на параметрите на алгоритъма за машинно обучение

Контакти:

Линкедин

Чувствайте се свободни да се свържете с мен за всякакви въпроси относно семинара и ако имате нужда от помощ при организирането на събитието. Заслугата е на MSPs в MIT и тяхната невероятна помощ при организирането на събитието.