Недавно у меня была возможность сдать экзамен по специальности машинного обучения AWS, и я хотел поделиться своим опытом и некоторыми советами, которые мне пригодились при подготовке к экзамену.

ПРИМЕЧАНИЕ. Все мнения являются моими собственными и не отражают точку зрения моего работодателя

Прежде всего, важно иметь прочную основу в концепциях и методах машинного обучения. Это включает в себя понимание различных типов алгоритмов, как они работают и когда их использовать.

В дополнение к этой основе также важно иметь практический опыт машинного обучения на платформе AWS. Это включает в себя использование сервисов искусственного интеллекта, таких как Amazon SageMaker, Amazon Comprehend, Amazon Kendra (и т. д.), а также понимание того, как развертывать модели машинного обучения в производственной среде.

10 % экзамена посвящено службам аналитики, поэтому очень важно хорошо разбираться в технологиях приема, обработки и визуализации данных. Подробнее об этом читайте здесь.

Чтобы подготовиться к экзамену, я сосредоточился на изучении нескольких основных частей материала и выполнении практических экзаменов вместо того, чтобы вникать в каждую мельчайшую деталь, так как я нашел этот подход более эффективное время.

(1) Встроенные алгоритмы

Чтобы подготовиться к экзамену, я изучил множество встроенных алгоритмов, разбив их на контролируемые и неконтролируемые категории, а затем перечислив общие варианты использования для каждого из них. Этот подход помог мне лучше определить шаблоны на экзамене и то, как их можно применять в разных ситуациях. ПРИМЕЧАНИЕ. Изображение, которое я сделал ниже, не включает ВСЕ встроенные алгоритмы на AWS. Полный список смотрите здесь.

(2) Концепция недообучения и переобучения

Понимание различий между недообучением и переоснащением имеет решающее значение в области машинного обучения, поскольку оно может существенно повлиять на точность и эффективность модели. Недообучение происходит, когда модель слишком проста и не может отразить сложность данных, что приводит к низкой производительности как для обучающих, так и для тестовых данных. С другой стороны, переобучение происходит, когда модель слишком сложна и способна идеально соответствовать обучающим данным, но плохо работает с тестовыми данными.

Я создал приведенную ниже таблицу в качестве краткого справочника, чтобы ответить на вопросы во время экзамена, поскольку она довольно часто возникала во время практических экзаменов!

(3) Метрики классификации машинного обучения

Существует несколько общих показателей, которые используются для оценки производительности модели классификации машинного обучения:

  1. Точность. Это самый простой показатель, который просто измеряет процент прогнозов, которые модель сделала правильными.

2. Точность: измеряет долю положительных прогнозов, которые были на самом деле правильными.

3. Отзыв: измеряет долю реальных положительных случаев, которые модель смогла правильно определить.

4. Оценка F1. Это средневзвешенное значение точности и полноты, которое часто используется как единый показатель для сравнения классификаторов.

5. Кривая AUC-ROC: это графическое представление производительности модели, показывающее компромисс между истинно положительными показателями и ложноположительными показателями.

6. Матрица путаницы: это таблица, в которой показано количество истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных прогнозов, сделанных моделью.

(4) Amazon Sagemaker

Amazon SageMaker – это полностью управляемая платформа машинного обучения, предоставляющая набор инструментов и сервисов для создания, обучения и развертывания моделей машинного обучения. Я уделил первоочередное внимание изучению этого сервиса больше всего.

Плейлист Amazon Sagemaker на YouTube — отличный ресурс для изучения машинного обучения и способов использования Amazon Sagemaker для создания и развертывания моделей.

Официальная документация AWS также является ценным ресурсом, поскольку в ней содержится подробная информация о различных функциях и возможностях Amazon Sagemaker. Если вы предпочитаете более практический подход, отлично подойдет курс Стефана Маарека по Udemy, так как он содержит пошаговое руководство по созданию и развертыванию моделей машинного обучения с помощью Amazon Sagemaker. Кроме того, День погружения в Amazon Sagemaker — это прекрасная возможность узнать обо всех основных функциях платформы и получить некоторый практический опыт работы с ней.

(5) Методы создания признаков

Разработка признаков — важный шаг в процессе машинного обучения, поскольку качество признаков, используемых для обучения модели, может значительно повлиять на ее производительность. Хорошие функции могут помочь модели делать более точные прогнозы, в то время как плохие или нерелевантные функции могут препятствовать ее способности учиться и принимать эффективные решения. Тщательно выбирая и создавая соответствующие функции, мы можем дать нашей модели лучшее понимание проблемы, которую мы пытаемся решить, и улучшить ее способность обобщать новые, невидимые данные. Кроме того, разработка признаков может помочь уменьшить сложность модели, что может улучшить ее интерпретируемость и упростить развертывание в реальных приложениях.

Посмотрите таблицу, которую я сделал ниже, чтобы все техники были удобоваримыми, главное определить ключевые слова!

(6) Сервисы AWS AI

Важно понимать различные сервисы AWS AI и их возможности, чтобы эффективно организовать рабочий процесс для конкретного сценария. Например, если компания не имеет доступа к другим ресурсам по науке о данных, но все же хочет извлечь информацию о настроениях клиентов из новостных статей, хорошим выбором может быть Amazon Comprehend. Этот сервис использует обработку естественного языка для анализа текста и определения настроений, что делает его хорошо подходящим для этой задачи. Однако, если компания также хочет анализировать данные с платформ социальных сетей, Amazon Rekognition может подойти лучше, поскольку она специализируется на анализе изображений и видео. Знание возможностей каждого сервиса позволяет выбрать наиболее подходящие инструменты для поставленной задачи, гарантируя эффективность и результативность вашего рабочего процесса.



Ссылки на ресурсы и практические экзамены

В целом я считаю, что экзамен по специальности машинного обучения AWS сложный, но очень полезный. Потратив время и усилия на подготовку, я смог получить сертификат и расширить свои навыки и знания в области машинного обучения. Надеюсь, что мой опыт и советы помогут другим, готовящимся к экзамену.