Машинное обучение - это подраздел исследований искусственного интеллекта, которое также является подразделом компьютерных наук. Увеличение объема данных и вычислительной мощности также увеличило потребность в обработке данных и получении полезных результатов путем выяснения взаимосвязей между данными. Новое направление называется наукой о данных или аналитикой в ​​целом. Иногда, в зависимости от приложения, платформа, на которой оно работает, может называться аналитикой больших данных. С другой стороны, наука о данных опирается на 2 основных столпа: машинное обучение и статистика.

Тенденция науки о данных также привлекла внимание к исследованиям машинного обучения, которое является одной из двух основных дисциплин, а другая - статистикой. Машинное обучение - относительно старая тема. Некоторые исследователи могут даже найти его корни в древнегреческом, где люди пытаются найти общую формулу для решения всех проблем, или голема из раннего иудаизма, который очень похож на роботов в нашем современном понимании. Сегодня машинное обучение - это тоже форма земли, и с каждым годом мы делаем его более автоматизированным.

В этой средней серии мы пытаемся получить практический опыт автоматизации процесса машинного обучения (AutoML) и начинаем концепцию с понимания классического потока машинного обучения. Мы рассмотрим, что такое автоматизированное машинное обучение, а также то, что не является автоматизированным машинным обучением. Мы поймем, почему автоматическое машинное обучение важно и с какими проблемами обычно сталкиваются в нем. В конце мы рассмотрим комплексный системный подход к автоматизированному процессу машинного обучения.

Письмо будет охватывать следующие темы:

· Понимание того, что такое AutoML

· Знание, почему AutoML важен

· Понимание того, что не является AutoML

· Понимание проблем AutoML

· Изучение сквозного системного подхода к процессу AutoML

Что такое AutoML

В простейшей форме определения AutoML - это автоматизация процесса машинного обучения. Итак, что мы понимаем под процессом машинного обучения и как его автоматизировать?

Процесс машинного обучения, описанный в литературе, можно легко понять из методов управления проектами в области науки о данных, и у нас есть три основных метода управления проектами в области науки о данных:

· SEMMA

· KDD

· CRISP-DM

Образец, исследование, изменение, модель и объекты

SEMMA расшифровывается как Sample, Explore, Modify, Model и Asses, и это самый ранний метод управления проектами, который также включен как в KDD, так и в CRISP-DM, поэтому не очень важно вдаваться в подробности подробности об этом. Но важно понимать это, поскольку он начинается с выборки данных и продолжается исследованием данных, изменением модели или типа данных, а затем созданием модели для этой цели и, наконец, оценкой результатов. Это также очень начальный поток AutoML, о котором мы поговорим позже.

Поиск знаний в базах данных

KDD означает обнаружение знаний в базах данных и является одним из наиболее известных способов извлечения знаний из данных.

Он начинается с данных в любой системе, такой как базы данных, платформы больших данных или даже потоковая передача данных с устройств Интернета вещей или социальных сетей, а после 5 шагов дает знания. Прежде чем углубляться в подробности шагов KDD, может быть полезно определить концепцию данных и знаний, как показано ниже:

На приведенном выше рисунке показана хорошо известная пирамида DIWK (пирамида данных, информации, знаний и мудрости).

1. Он начинается с цифр или символов, как в базовой строке, уровне данных.

2. Они не имеют значения, и уровень информации вносит смысл. Например, 50 - это просто число, но такая информация, как «50 - это возраст Джона», имеет для нас значение.

3. Переход от данных к информации - это отдельная история для другой книги, и большинство проблем на этом уровне решаются системами баз данных, хранилищами данных и создают отчеты, информационные панели или системы показателей.

4. С другой стороны, шаг от информации к уровню знаний - это проблема искусственного интеллекта, машинного обучения или статистики, и мы не можем добиться 100% успеха в большинстве задач уровня знаний. Например, определение возраста Джона по его фотография может быть проблемой уровня знаний, и в большинстве случаев мы не можем быть уверены в этом.

KDD - это метод использования данных для решения проблем уровня знаний, таких как сбор фотографий всех сотрудников и тренировочная машина для прогнозирования возраста людей.

AutoML стремится автоматизировать этот процесс от данных до уровня знаний без какого-либо взаимодействия или, по крайней мере, минимизировать взаимодействия. В этой статье вы можете найти пошаговый подход к каждому этапу KDD и узнать, как его автоматизировать.

KDD начинается с выбора данных, что важно для сокращения набора данных и понимания наиболее важных функций. Позже, в AutoML, мы собираемся разделить этот слой на уровень подключения данных и выбор функций, поскольку AutoML требует подключения, выбора и обновления этого процесса, потому что в большинстве случаев данные являются динамическими, и нам нужно проверить обновления данных.

Предварительная обработка данных решает проблемы с данными, такие как пропущенные значения, выбросы, зашумленные или грязные данные и т. Д. Итак, мы оба занимаемся качеством данных и в то же время пытаемся провести некоторую предварительную обработку для повышения успеха нашей модели машинного обучения. Также в AutoML целью является автоматическое повышение успешности и понимание стратегий предварительной обработки или опробование некоторых возможностей для оптимизации производительности модели машинного обучения. Поскольку мы обрабатываем оптимизацию производительности автоматизированным способом, мы не можем разделить этапы AutoML на два, такие как предварительная обработка данных или преобразование, мы выполняем оба этих этапа вместе. Например, большую часть времени в процессе AutoML поля даты автоматически обнаруживаются (шаг от предварительной обработки данных), пропущенные значения или выбросы автоматически обрабатываются (еще один шаг от предварительной обработки данных), некоторые функции, такие как день, месяц, год, день недели или дня года автоматически извлекаются (шаг от преобразования данных), полезные свойства выбираются, а бесполезные считаются (шаг от выбора данных). Итак, AutoML - это полная автоматизация процесса, при котором KDD обрабатывает его в несколько этапов.

Наконец, этап интеллектуального анализа данных обрабатывается этапом выбора модели в AutoML, а также AutoML занимается оптимизацией модели, которую мы позже назовем оптимизацией гиперпараметров (HPO).

После этапа интеллектуального анализа данных или моделирования первая модель машинного обучения готова к использованию, но снова остается одна последняя проблема, которую необходимо решить: как мы можем понять успех модели? как мы можем это оценить? каковы критерии удовлетворения?

Одним из основных различий между подходами AutoML и KDD является этап оценки. Интерпретация / оценка очень важны в науке о данных и настоятельно требуют, чтобы специалист по данным занимался делом и работал над ним. Но в AutoML процесс чаще всего начинается с критериев оценки.

Обработка межотраслевых стандартов - интеллектуальный анализ данных

CRISP-DM: CRISP-DM расшифровывается как Cross Industry Standard Processing - Data Mining, и это наиболее часто используемый в отрасли инструмент анализа данных. Шаги CRISP-DM можно продемонстрировать, как показано на рисунке ниже:

· CRISP-DM состоит из 6 шагов и начинается с понимания бизнеса и данных, которые необходимы для любого проекта в области науки о данных, и в большинстве случаев это работа бизнес-аналитика или аналитика данных в указанном порядке.

· Остальные этапы CRISP-DM очень похожи на этапы KDD, а этапы выбора данных, предварительной обработки данных и преобразования данных KDD объединены в этап подготовки данных в CRISP-DM.

· С этой точки зрения CRISP-DM очень похож на подход AutoML, в котором весь процесс AutoML можно разделить на два основных цикла: цикл подготовки данных и цикл машинного обучения.

· CRISP-DM подчеркивает важность бизнес-анализа и анализа данных.

Шаги и модули AutoML

После рассмотрения и сравнения классических этапов и потока управления проектами машинного обучения / науки о данных можно составить систематическую диаграмму AutoML:

Хотя существует множество альтернативных подходов к процессу AutoML, вышеупомянутый подход предложен OptiWisdom для сквозного решения на основе подхода SaaS. Пользователь может загрузить / подключить источник данных, а остальные проблемы, такие как предварительная обработка или выбор модели и развертывание, решаются на платформе OptiWisdom. Диаграмма AutoML демонстрирует:

· Переход от источника необработанных данных к развертыванию автоматически сгенерированного алгоритма машинного обучения.

· Процесс очень похож на потоки KDD и CRISP-DM и имеет 2 основных цикла, цикл предварительной обработки и цикл машинного обучения, аналогичные этапам CRISP-DM.

· Основная идея AutoML - автоматизация каждого шага из рисунка выше, помимо автоматизации всего процесса.

· Приведенная выше диаграмма также дает общее представление о системе в целом. В некоторых случаях решение AutoML может учитывать меньшую часть описанного выше сценария.

· Например, удаление всех вышеперечисленных шагов и добавление только одного алгоритма машинного обучения непосредственно к источнику данных и применение оптимизации гиперпараметров можно даже рассматривать как решение AutoML.

В этой статье будет представлена ​​более широкая картина с практическим опытом на каждом этапе, и каждый этап AutoML рассматривается в отдельной главе с практическим подходом. Он начинается с уровня данных и переходит к уровню знаний.

Уровень подключения к данным

Атомизация начинается с уровня подключения к данным. Помимо необходимости подключения к источнику данных, автоматизированные системы также должны проверять обновления и обновления в источнике данных. Обновления в источнике данных могут быть:

· Новая запись в источнике данных, и подход AutoML проверяет наличие обновлений с помощью push-уведомлений или обновляет проверки обновлений на временной основе

· Источник потоковых данных, где обновления являются частью характера проблемы, или иногда обновления представляют собой структурные обновления, и уровень автоматического подключения к данным должен обнаруживать эти изменения и обновлять их самостоятельно.

Все обновления и обновления в этом слое напрямую связаны с формой данных. Например, добавление новых меток в систему - еще одна проблема, которая решается на этапах выбора или разработки функций.

Выбор функций / Разработка

На этом уровне подход AutoML решает проблемы с избыточными функциями. Например, добавление даты рождения и возраста человека может быть проблемой в некоторых системах. Выбор функций пытается найти повторяющиеся функции и устранить их. Кроме того, уменьшение размеров или преобразование данных является частью выбора и проектирования функций. На этом этапе система может рассмотреть некоторые библиотеки проектирования функций. Например, автоматическое извлечение дня недели, дня года или сезона из полей даты является важной частью проектирования функций на этом этапе.

Все шаги AutoML находятся в цикле, и каждый шаг обновляется в зависимости от обратной связи с другими шагами в каждой итерации. Например, устранение функции - это получение обратной связи от предварительной обработки данных или выбранных алгоритмов, а также возможность обновления выбранных функций в соответствии с отзывами, полученными на этих этапах.

Подробности разработки функций и практические примеры будут рассмотрены в другой статье «Автоматизация источников данных и выбор данных».

Предварительная обработка данных

Предварительная обработка данных - важный этап, который также считается важным этапом в методологиях KDD или CRISP-DM. Иногда предварительная обработка данных является частью ETL (этап извлечения, преобразования и загрузки в терминологии хранилища данных) или называется качеством данных, манипулированием данными или объединением данных, но это важный этап для всех исследований, связанных с данными. Целью этапа предварительной обработки данных является решение таких проблем с данными, как пропущенные значения для грязных / зашумленных данных или выбросов.

Подобно другим этапам AutoML, предварительная обработка данных также является этапом цикла, и некоторые действия могут выполняться на основе отзывов, поступающих с других этапов. Например, в некоторых решениях AutoML выбросы могут быть удалены, в то время как в некоторых других решениях выбросы чрезвычайно важны для решения.

Кроме того, классические методы извлечения, исключения или инженерии требуют для анализа подхода, основанного на временных рядах. Необязательно, в некоторых подходах к проектированию признаков применяются решения временных рядов.

Результат предварительной обработки данных - это предварительно обработанный источник данных, а также первый шаг в цикле машинного обучения AutoML. На каждой итерации цикла машинного обучения AutoML предварительно обработанные данные будут подвергаться изменениям, а необходимые обновления будут являться обратной связью для цикла предварительной обработки AutoML.

Предварительная обработка данных будет рассмотрена в следующих статьях.

Объединить / Выбрать и применить алгоритм / Оптимизация гиперпараметров

Применение алгоритмов машинного обучения к предварительно обработанным данным - это первый шаг цикла машинного обучения в AutoML. На этом этапе будут применяться алгоритмы, выбранные из библиотеки алгоритмов, и первый результат будет оцениваться автоматически. Например, в зависимости от типа данных целевого поля, если есть целевое поле, проблема может заключаться в классификации или регрессии. Подход AutoML определяет тип проблемы и фокусируется только на алгоритмах, связанных с проблемой. После применения алгоритмов, связанных с проблемой, в приоритетном порядке, подход AutoML может дать обратную связь с циклом предварительной обработки AutoML, а также применить методы оптимизации гиперпараметров (HPO), которым принадлежат алгоритмы.

На этом этапе используется множество различных методов оптимизации, и каждый из них имеет свои преимущества и недостатки. Детали выбора алгоритмов будут объяснены в главе 8 «Автоматический выбор правильного алгоритма», объединение нескольких алгоритмов для решения будет рассмотрено в главе 9 и, наконец, методы оптимизации гиперпараметров объяснены в главе 10.

Оценка и развертывание

Последним шагом AutoML является развертывание решения, модели-кандидата, в бизнес-модели. В зависимости от бизнес-кейса для оценки требуются полевые испытания, а также есть некоторые полезные отзывы от полевых испытаний.

Комплексная оценка и цель деталей системы AutoML, таких как бизнес-кейсы и применение AutoML в реальной жизни, будут рассмотрены в главе 11, но на вводном этапе может быть полезно вспомнить уровни зрелости аналитики, показанные в изображение ниже:

В большинстве случаев описательная аналитика не требует подходов к машинному обучению. Для диагностики, которая требуется не во всех случаях, но полезна для понимания причин, специалисты по анализу данных ищут причины и пытаются ответить на вопрос «что вызывает эти результаты?». Хотя в диагностической аналитике наука о данных имеет некоторые преимущества, преимущества AutoML начинаются с прогнозной аналитики, но AutoML гораздо важнее в предписывающей аналитике, а автоматические действия являются частью предписывающей аналитики. Таким образом, хорошо продуманный подход AutoML может как автоматически предпринимать действия, так и извлекать уроки из бизнес-кейсов или отзывов из реальной жизни.

Подход AutoML представляет собой непрерывную атомизацию процесса машинного обучения, чтобы машина могла учиться на реальной жизни, как при усиленном обучении. Помимо изучения и повышения общей производительности системы, AutoML также может улучшить производительность действий.

Цель AutoML

Цели AutoML могут быть перечислены ниже:

· Автоматизация максимального количества шагов в конвейере классической науки о данных

· Минимум человеческого взаимодействия

· Достижение хороших и удовлетворительных результатов

· Быстрые вычисления

Третий и четвертый элементы в приведенном выше списке также являются основными целями классической науки о данных, но первые два элемента в приведенном выше списке содержат уникальный новый подход к науке о данных и машинному обучению.

Понимание важности AutoML

AutoML - относительно новая и развивающаяся тенденция в исследованиях машинного обучения. Этот подход также привлекает внимание как технологических гигантов, таких как Facebook, так и глобальных исследовательских и консультационных фирм из делового мира, таких как Gartner. Facebook создает более 300 000 моделей машинного обучения каждый месяц, и у них также есть проект под названием Asimov для оптимизации этих моделей. Gartner, с другой стороны, утверждает, что к 2020 году более 40% обработки данных будет автоматизировано.

В 2015 году Twitter приобрел стартап по машинному обучению WhetLab, который создает более простые и автоматизированные решения проблем машинного обучения.

Ниже перечислены три основные цели AutoML:

· Оптимизация производительности: в идеальном случае производительность AutoML не зависит от сложности проблемы или данных. Таким образом, AutoML пытается создать обобщенную производительность для различных задач ввода и обучения.

· Минимальное участие человека в процессе или его полное отсутствие: в идеальном случае AutoML обрабатывает все проблемы и решает их автоматически.

· Вычислительная эффективность: в идеальном случае AutoML создает лучший алгоритм в рамках данных ограниченных ресурсов или бюджета.

Все вышеперечисленные случаи показывают, что в отрасли наблюдается растущая тенденция в отношении решений AutoML. Ключевые преимущества AutoML:

· AutoML сокращает количество рутинных операций, оставляя огромный пробел для творческой работы в процессе обработки данных.

· AutoML - это способ демократизации машинного обучения, и в нем появился новый термин под названием «Citizen Data Scientist», чтобы каждый мог заниматься наукой о данных и использовать алгоритмы машинного обучения в своей области знаний.

· AutoML предоставляет стандартизированное решение для машинного обучения независимо от стажа специалистов по обработке данных в проекте.

· AutoML оказывает лавинообразное воздействие на отрасль, поскольку увеличивает вовлеченность сотрудников, менеджеров или всех заинтересованных сторон в решения, связанные с машинным обучением.

Citizen Data Scientists и демократизация машинного обучения

AutoML - важная тенденция, поскольку она обеспечивает демократизацию решений машинного обучения. Относительно новая тенденция, называемая «специалист по гражданским данным», также не является новой работой или должностью в организации, на которую можно нанимать. Gartner определяет этот термин как человека, который занимается разработкой прогнозной или предписывающей аналитики, который не имеет опыта в статистике или аналитике и чья основная работа не заключается в разработке моделей.

Изображение гражданина Data Science, показанное ниже, полностью вовлечено и привержено бизнес-процессам и науке о данных.

· Гражданский специалист по данным также является мостом между миром науки о данных и областью, в которой он специализируется.

· Он собирает информацию, создает социальные сети или мечтает о будущих проектах как в области науки о данных, так и в своей области.

· Кроме того, большинство гражданских специалистов по обработке данных добавляют новые навыки к своему опыту, например, более широкое понимание статистики, обработки данных, аналитики или математики.

· Они также несут ответственность за свои решения перед организациями.

Итак, в новую эру науки о данных наука о данных демократизирована и доступна для всех, независимо от происхождения, и также не важно, с чем они имеют дело на своей работе, наука о данных повсюду, и каждый должен понимать и делать что-то аналитика.

Одна из больших проблем гражданских специалистов по данным заключается в том, что невозможно отправить всех экспертов в школу, чтобы обучить их аналитике данных или моделям машинного обучения. Напротив, тенденция показывает, что инструменты становятся менее сложными и предоставляют простые и объяснимые решения. Таким образом, опытные специалисты по данным или специалисты по машинному обучению работают над созданием новых инструментов, систем или алгоритмов, и эти инструменты более востребованы широкими массами.

Стандартизация моделей машинного обучения

Еще одна важная проблема, связанная с тенденцией AutoML, - это стандартизация качества производимых моделей машинного обучения. В отрасли всегда требуется наличие опытных специалистов по обработке данных или экспертов по машинному обучению. Ключевой термин «опытный» имеет решающее значение для большинства объявлений о вакансиях, или даже иногда в объявлениях о вакансиях есть «старший» специалист по анализу данных в слоганах. Промышленность уже знает о качестве моделей машинного обучения. Модель, которая решает проблему, не является лучшим решением большую часть времени, и только опыт может повысить качество модели машинного обучения, которое может поставить под сомнение рабочую ситуацию, степень успеха, связанную с бизнес-кейсом, или будущие риски модели машинного обучения. .

В AutoML есть решение проблемы, и независимо от опыта или стажа специалиста по обработке данных AutoML создает модели, готовые к развертыванию.

Помимо стандартизации моделей для бизнес-кейсов или проблем с данными, стандартизация также устанавливает стандарт производительности выполнения. Выбранные или комбинированные модели могут быть ограничены ресурсами или требованиями к производительности.

Лавинный эффект AutoML в индустрии и передача знаний

AutoML упрощает доступ к проектам машинного обучения и упрощает их понимание. Кроме того, он предоставляет множество новых автоматизированных инструментов для экспертов из любой области и любого уровня подготовки. Итак, машинное обучение в новую эпоху становится намного доступнее.

Перенос опыта из одного случая в другой также возможен с помощью AutoML. Например, приложение AutoML, специализирующееся на человеческих ресурсах, может также вызывать стандартную процедуру машинного обучения для приложений, специфичных для предметной области, в HR. Похожая ситуация и в розничной торговле. Amazon, один из первых разработчиков системы рекомендаций в Интернете, создал розничный интернет-магазин, и в те времена простейшим способом написания механизма рекомендаций был простой запрос к базе данных, чтобы показать, «кто купил этот товар, также купил это». элемент », очень примитивный вариант совместной фильтрации. Теперь этот подход применим к любому розничному интернет-магазину, а также он необходим для многих интернет-магазинов. Легко видеть, что даже самая простая и базовая система машинного обучения может быстро стать отраслевым стандартом.

Данные - это новая нефть, и компании, основанные на новых данных, растут почти во всех отраслях. Не прошло и двух десятилетий после появления первых примитивных рекомендательных систем Amazon, а теперь системы машинного обучения почти заменяют высшее руководство в некоторых отраслях. Например, Netflix получает более 75% своего дохода от рекомендательных алгоритмов, работающих в фоновом режиме, и успех компании в основном основан на алгоритмах, которые они развернули. Netflix готовит рекомендации фильмов на основе действий пользователя, что называется совместной фильтрацией или кем является пользователь, что также называется фильтром на основе контента, кроме того, он создает постеры фильмов на основе исторических данных пользователей. Таким образом, каждый раз, когда пользователю рекомендуют фильм, пользователь получает уникальный постер фильма, созданный для себя.

Что такое AutoML

AutoML - это не волшебный ящик, который автоматически решает все проблемы. Например, AutoML не может изобрести новый алгоритм машинного обучения или не может гарантировать лучшую настройку для некоторых случаев.

AutoML - это не технология, которая убивает все рабочие места в области науки о данных и заменяет специалистов по данным. Это как раз наоборот, и это необходимый инструмент для специалистов по данным в новую эру науки о данных. Вместо того, чтобы повторять процедуры в науке о данных, такие как анализ данных, очистка данных, извлечение функций или тестирование нескольких алгоритмов машинного обучения с несколькими проблемами, AutoML автоматически выполняет все необходимые процедуры и оставляет мудрые решения на усмотрение специалистов по данным.

Как показано на изображении ниже, AutoML можно рассматривать как конвейер, и с одной стороны AutoML получает в качестве входных данных творческие идеи, такие как бизнес-задачи или данные. С другой стороны, AutoML предоставляет необходимые выходные данные для суждения специалистов по данным и готовые к развертыванию модели для инженеров по данным.

· AutoML также меняет правила игры в подходах к искусственному интеллекту и науке о данных.

· Например, загрузка в систему глубокого обучения большего количества ЦП, графического процессора или TPU является очень распространенной ошибкой и представляет собой абстрактно-ориентированную автоматизацию машинного обучения.

· AutoML, с другой стороны, представляет собой новую перспективу и сдвиг в исследовательском сообществе, который обеспечивает объяснимость и интерпретируемость как автоматизации, так и машинного обучения.

· Результаты AutoML просты и объяснимы в большинстве случаев, таких как создание дерева решений и отображение ключевых узлов решений вместе с потоком данных в алгоритме, вместо получения весов синапсов или параметров функции активации в нейронных сетях.

Понимание проблем AutoML

У AutoML есть некоторые четко определенные проблемы с первых дней в литературе. Например, одно из первых появлений AutoML было представлено Auto-Weka, а самой ранней определенной проблемой, которая все еще остается важной проблемой, была CASH (оптимизация сочетания и выбора и гиперпараметров).

Другая известная проблема восходит к классической теории машинного обучения: теорема об отсутствии бесплатного обеда. По сути, в нем говорится, что не существует алгоритма машинного обучения, который мог бы превзойти все другие возможные алгоритмы.

У AutoML есть целенаправленная проблема в оптимизации параметров. После выбора алгоритма машинного обучения, подходящего для задачи или данных, или даже объединения возможностей алгоритма, теперь проблема заключается в оптимизации гиперпараметров.

Проблема с наличными

Проблема наличных денег - одна из очень известных и ранних проблем в литературе. Проблема просто подчеркивает выбор всех возможных хороших алгоритмов машинного обучения среди всех возможных алгоритмов и их объединение для решения проблемы. AutoML в основном предназначен для задач контролируемого обучения. Например, алгоритмы классификации и регрессии контролируются, и легче измерить успех алгоритма. В задачах обучения с учителем комбинация алгоритмов возможна и относительно проще за счет использования методов ансамбля, таких как упаковка, усиление, суммирование и т. Д. Кроме того, можно комбинировать алгоритмы обучения без учителя, такие как алгоритмы кластеризации, с использованием консенсусного обучения. В любом случае подход AutoML пытается найти наилучший выбор алгоритма машинного обучения и комбинацию для решения проблемы.

Нет бесплатного обеда

Теорема об отсутствии бесплатного обеда (NFL) является относительно более старой теорией, чем подход AutoML, и указывает на то, что не существует единого размера, который подходил бы для всех решений в области машинного обучения или оптимизации.

Этот термин касается AutoML двояко, первое значение NFL - выбор алгоритма машинного обучения. Например, существует множество альтернативных алгоритмов машинного обучения, и для каждого из этих алгоритмов есть причина, каждый алгоритм имеет свои преимущества и недостатки. Если есть один алгоритм, который доминирует над всеми другими возможными алгоритмами во всех отношениях, жизнь будет намного проще. К сожалению, это невозможно, и такого алгоритма или более короткого пути не существует. Второе значение NFL в AutoML - это фаза оптимизации алгоритмов машинного обучения, а точнее оптимизация гиперпараметров. Опять же, проблема аналогична выбору алгоритма машинного обучения, на этот раз у процедуры оптимизации нет свободного решения.

Аналогия восходит к метафорам ресторана и меню. Итак, меню - это список возможных решений, и для каждой обеденной тарелки в меню есть цена. Кроме того, в зависимости от вашей диеты также важен выбор ресторана. Например, веганский обед в стейк-хаусе будет платить больше, чем средняя цена обеда. Поэтому выбор подходящего ресторана и подходящего пункта меню очень важен. Наконец, ваш друг во время обеда, с которым вы идете на обед, также важен для выбора, доступного вам. Например, если вы веган и обедаете с плотоядным животным, то обед снова становится выше среднего.

По аналогии, выбор пункта меню из меню - возможное решение или алгоритм из списка доступных алгоритмов - имеет некоторые внешние эффекты, например, какие алгоритмы работают вместе или в какой проблемной области вы используете алгоритм. Алгоритм сам по себе является задачей оптимизации, и одновременная оптимизация параметра выбранных алгоритмов несколько усложняет задачу и поднимает проблему многокритериальной оптимизации.

Оптимизация гиперпараметров (HPO)

В самом общем виде оптимизация гиперпараметров - это оптимизация гиперпараметров алгоритма машинного обучения. Почти все алгоритмы имеют гиперпараметры, которые напрямую влияют на результат, и, помимо выбора лучшего алгоритма для решения проблемы, важной проблемой является выбор лучших параметров для алгоритма.

Есть много подходов к проблеме и возможных решений, и эта проблема и альтернативные решения будут обсуждаться в следующих статьях. Но для того, чтобы представить концепцию, очень примитивной процедурой поиска может быть поиск по сетке, где все возможные параметры в пределах заранее определенного диапазона ищутся в итерации.

На самом деле HPO - это немного более сложная проблема. В большинстве случаев гиперпараметры не являются двумерными или трехмерными пространствами поиска, и одновременно необходимо оптимизировать более 10 параметров. К сожалению, хотя количество оптимизируемых параметров увеличивается, сложность задачи растет экспоненциально.

Ни один из алгоритмов не гарантирует лучшего решения, чем поиск по сетке, но более быстрый алгоритм может быть возможен при использовании некоторых алгоритмов оптимизации.

Изучение сквозного систематического подхода к AutoML

В классическом проекте по науке о данных есть три основных шага.

1. Проект по науке о данных начинается с понимания и анализа проблемы и данных,

2. продолжает создание и внедрение модели и

3. На заключительном этапе проект переходит в устойчивую и поддерживаемую стадию.

На рисунке ниже показан общий подход к процессу анализа данных в большинстве случаев. Рисунок объясняет основной вклад участников, но, конечно, участие субъектов не ограничивается взаимодействиями, показанными на рисунке. Например, заинтересованные стороны и бизнес-команда очень связаны с продуктом и развертыванием, но на рисунке показаны только критические и основные взаимодействия.

Эти три шага также требуют некоторых подэтапов и субъектов, вовлеченных в процесс.

· На этапе формирования идей и на этом этапе заинтересованные стороны, бизнес-команда и специалисты по данным работают вместе. Идея здесь в понимании и определении проблем и творческом подходе к их решениям.

· На этапе науки о данных специалисты по обработке данных работают над поиском решения проблемы, и, наконец, на этапе производства или развертывания разработчики, системные администраторы или инженеры по обработке данных работают над оптимальной устойчивой системой.

· AutoML нацелен на автоматизацию науки о данных и, в основном, этапов производства / кодирования.

Вместо того, чтобы актеры работали вручную, AutoML заменяет рутины оптимизированными и автоматизированными решениями, а также предоставляет больше возможностей для специалистов по обработке данных и разработчиков для работы над более творческими задачами.

На приведенном выше рисунке показано основное развертывание AutoML во всей системе. Идея состоит в том, чтобы автоматизировать этапы обработки и анализа данных и производства, а также свести к минимуму участие специалистов по данным и групп разработчиков в этом процессе.