Обучение с подкреплением (RL) — это тип машинного обучения, который позволяет агенту взаимодействовать с миром и периодически учиться в окружающей среде, совершая ошибки и получая вознаграждение. В шахматах, например, вы получаете 1 вознаграждение за победу, 0 за поражение и ½ за ничью. Почти все проблемы RL могут быть сформулированы с использованием марковских процессов принятия решений (MDP), математических основ, используемых для представления среды в RL. Конечная среда S, набор действий A(s) в этой среде, функция вознаграждения R(s) с реальными значениями и модель перехода являются компонентами марковского процесса принятия решений. На сегодняшний день доступны сотни различных алгоритмов обучения с подкреплением, которые делят методы на две категории: обучение с подкреплением на основе моделей и без моделей.

В RL на основе модели модель перехода среды используется агентом для анализа сигналов вознаграждения и принятия решения о том, что делать. Если модель неизвестна, то агенту придется изучать модель, наблюдая за результатами своих действий, и изучать полезную функцию полезности U(s). Находясь в свободном от модели RL, у агента нет ранее существовавших знаний или возможностей для получения модели переходов в окружающей среде. Он изучает более упрощенное представление надлежащего поведения, используя два подхода: обучение полезности действия и поиск политики. Самый популярный тип изучения полезности действия осуществляется с помощью агента Q-обучения, который изучает функцию полезности действия (Q-функцию), которая указывает прогнозируемую полезность выполнения данного действия в заданных условиях. . При поиске политики рефлекторный агент изучает политику, которая напрямую связывает состояния с действиями.

Изучение преимуществ состояний, когда политика агента фиксирована, является задачей пассивного обучения. Политика агента настроена так, что он всегда выполняет действие π(s) в состоянии s. Цель состоит в том, чтобы понять функцию полезности Uπ (s) и то, насколько эффективна политика. Как модель перехода P(s’|s,a), так и функция вознаграждения агенту неизвестны. При прямой оценке полезности вознаграждение и ожидаемая полезность последующих состояний (ожидаемое вознаграждение до выхода) определяют полезность состояния, а значения полезности подчиняются уравнениям Беллмана. Из-за того, что полезности состояний не являются независимыми, они должны подчиняться уравнениям Беллмана для конкретной политики и выполнять значительно более широкий поиск, чем это необходимо. В результате метод часто сходится очень медленно. Однако агент адаптивного динамического программирования (ADP) изучает модель перехода между состояниями, используя ограничения между их полезностью, а затем использует динамическое программирование для решения связанного марковского процесса принятия решений. Еще один метод заключается в изменении полезности наблюдаемых состояний, чтобы сделать их совместимыми с уравнениями ограничений, используя наблюдаемые переходы. Как правило, α — это параметр скорости обучения, который применяется к следующему обновлению, представленному в приведенной ниже формуле, часто называемой уравнением временной разницы (TD).

Uπ (s) ← Uπ (s) + α [R(s) + ϒUπ (s‘) — Uπ (s)]

Где ϒ означает коэффициент дисконтирования, он не нуждается в модели перехода и не учится быстро, как агент ADP, и демонстрирует более высокую изменчивость. Тем не менее, это намного проще и требует гораздо меньше работы для каждого наблюдения. Кроме того, агенты пассивного обучения имеют фиксированные политики, которые диктуют их поведение, то есть им говорят, что делать. Именно это вдохновило нас на создание активных обучающих агентов.

Агент активного обучения должен решить, что делать, поскольку не существует фиксированной политики, по которой он может действовать и изучать оптимальную политику. Оптимальным действиям можно научиться, используя пассивный агент ADP и итеративную оценку ценности или политики. Однако эта стратегия производит жадного агента. Следовательно, мы применяем метод, придающий больший вес нераскрытым формам поведения и меньший вес действиям с меньшей полезностью. Однако агент не знает о фактической среде, поэтому он не может оценить оптимальную реакцию для фактической среды. Агент должен выбирать между использованием оптимального действия для максимизации своей краткосрочной выгоды и исследованием неоткрытых состояний для сбора знаний, которые приведут к изменению политики. До сих пор мы считали, что агент волен проводить расследования по своему усмотрению и что любое негативное вознаграждение служит лишь улучшению его модели мира. Этот подход полезен для игр или симуляции беспилотного автомобиля, но реальный мир менее удобен, так как многие действия необратимы. Мы не можем позволить нашим агентам действовать безвозвратно или существовать в поглощающих состояниях. Например, агент, практикующий вождение в реальной машине, должен воздерживаться от действий, которые могут привести к состояниям со значительным отрицательным вознаграждением, таким как серьезные автомобильные аварии.

Несмотря на то, что политика неоптимальна для модели максимального правдоподобия, желательно принять политику, которая хорошо работает для всех моделей с достаточной вероятностью быть реальной моделью. Три математических метода имеют общий вкус. Во-первых, байесовское обучение с подкреплением начинается с априорной вероятности P(h) по сравнению с гипотезами h о правильной модели и использует правило Байеса для вычисления апостериорной вероятности P( h|e) на основе наблюдений. Если агент прекращает обучение, наилучшая политика имеет наивысшую ожидаемую полезность. Второй метод, основанный на подходящих теориях управления, позволяет собирать потенциальные модели H без назначения вероятностей и определяет оптимальную надежную политику как такую, которая дает наилучший результат в худшем сценарии по сравнению с H. Часто набор H будет набором моделей, которые превышают некоторый порог правдоподобия по апостериорной вероятности; следовательно, байесовский и надежный методы связаны.

После ADP для обучающегося агента с временной разницей (TD) наиболее очевидным изменением является то, что агенту необходимо будет изучить модель перехода, чтобы выбрать курс действий на U одноэтапном взгляде. -предстоящий. Обновление и сходимость задачи приобретения модели идентичны ADP. Вместо изучения функции полезности U(s) метод Q-обучения без необходимости смотреть вперед позволяет избежать необходимости в модели, обучая учащихся функции полезности действия Q(s). Зная Q-функцию, агент может принимать наилучшие возможные решения с помощью argmaxa Q(s, a). Здесь Q(s, a)означает ожидаемое вознаграждение за действие a в состоянии s. Ниже приведено уравнение для обновления TD для коммунальных служб на примере Q-learning.

Q(s,a) ← Q(s,a) + α(R(s) + ϒmaxa' Q(s',a') - Q(s,a))

Что такое Q-обучение?

Q-обучение – это алгоритм обучения вне политики, который выбирает оптимальный план действий, изучая Q-значение. Напротив, если мы возьмем SARSA (для состояния, действия, вознаграждения, состояния, действия), он относительно похож на Q-обучение, но его политика и резервирует значение Q для действия, ожидая, пока оно не будет выполнено, прежде чем делать это. . Оба изучают лучший способ действий в мире 4x3, но гораздо медленнее, чем агент ADP.

Для реальных сред сходимость будет медленной, поэтому необходимо ввести функцию оценки в терминах аппроксимации функции. Это относится к процессу создания аппроксимации истинной функции полезности или Q-функции как аппроксимации функции. Например, функция полезности может быть аппроксимирована с использованием линейно взвешенной комбинации характеристик или признаков f1, f2, …., fn. Нам не хватает линейных функций, которые приближаются к функции полезности, и мы, возможно, не сможем изобрести основные функции в новой области. В связи с этим исследователь ввел глубокое обучение с подкреплением, которое использует глубокие нейронные сети в качестве аппроксиматора функций. В приведенном ниже уравнении глубокая сеть представляет собой функцию, параметризованную ϴ и всеми весами во всех слоях сети.

U’ϴ (x, y) = ϴ0 + ϴ1x + ϴ2y

Хотя глубокое RL добилось выдающихся успехов, оно по-прежнему сталкивается с серьезными проблемами. Достижение достойной производительности является сложной задачей, и обученная система может демонстрировать крайне непредсказуемое поведение, если окружающая среда хоть немного отклоняется от обучающих данных. Система Deep Q-network (DQN) была разработана компанией DeepMind. Поиск применения DQN был обучен независимо для каждой 49 видеоигры Atari. Его учили, как использовать весла, чтобы отбивать мячи, и как управлять имитацией гоночного автомобиля. Каждый раз агент использовал счет игры в качестве сигнала вознаграждения для обучения Q-функции на необработанных данных изображения. Несмотря на то, что в некоторых играх у него были проблемы, в целом производительность системы была близка к производительности человека-эксперта. Еще одним наиболее известным приложением было ALPHAGO, которое обыграло лучшего игрока-человека в игре GO. Были изучены функция ценности и Q-функция, чтобы направлять поиск, указывая, какой выбор следует делать дальше. Без каких-либо дополнительных поисков со стороны игрока Q-функция достаточно точна, чтобы победить подавляющее большинство игроков-любителей.

Второй стратегией работы с длинными последовательностями действий является иерархическое обучение с подкреплением (HRL), цель которого состоит в том, чтобы разделить их на более мелкие фрагменты, а затем эти фрагменты на еще более мелкие и так далее, пока последовательности, наконец, не станут достаточно короткими, чтобы их можно было понять. легко запоминается. Первоначально агент обучения с подкреплением с иерархической структурой программируется частичной программой, которая определяет желаемое поведение агента. Достаточно просто дать агенту простую частичную программу, которая позволяет ему выбирать любое действие из множества действий, которые могут быть выполнены в текущем состоянии s. Концепция совместного пространства состояний, в котором каждое состояние состоит из физического состояния и состояния машины m, является теоретической основой HRL. Обеспечивая естественную аддитивную разбивку общей функции полезности, иерархическое RL может быть мощным инструментом для обучения сложным действиям.

Наконец, самым простым из всех методов является подход к поиску политики, который рассматривается для задач обучения с подкреплением. Поскольку политика является функцией π в основном в многомерных представлениях, у которых меньше параметров, чем состояний в пространстве состояний, которое переводит состояния в действия. По сравнению с поиском политики Q-Learning ищите значение ϴ, которое приводит к хорошей производительности. Недостатком является то, что это затрудняет поиск на основе градиента, поскольку политика меняется прерывисто и часто используется стохастическая политика. Различные стратегии, такие как начало с простейшего сценария — детерминированная политика и детерминированная среда — могут использоваться для улучшения этой политики.

Проблемы. Проблемы могут возникнуть при использовании RL для решения бизнес-задач. Поскольку нет помеченных или непомеченных данных для управления агентом, он должен собирать данные по мере их поступления. Выбор человека влияет на информацию, которую он впоследствии получает. Из-за этого агенту может потребоваться экспериментировать с несколькими подходами для получения информации. Непредсказуемость среды, обучение алгоритма RL в таких изолированных смоделированных ситуациях может значительно повысить его производительность. Например, в видеоиграх контекст принятия решения агентом статичен. Еще одна возможная проблема — задержка обратной связи, поскольку на практике трудно предсказать, сколько времени потребуется, чтобы решение принесло свои плоды. Например, нам, возможно, придется подождать месяц, год или даже несколько лет, чтобы увидеть, был ли точным прогноз торговой системы ИИ о том, что инвестирование в определенные активы (недвижимость) будет выгодным.

Вывод. Обучение с подкреплением успешно применяется в реальном бизнес-контексте, несмотря на трудности, с которыми оно связано во время обучения. RL полезен, когда необходимо получить лучшие ответы в динамической обстановке. Без сомнения, обучение с подкреплением — это современный инструмент с огромным преобразующим потенциалом. Тем не менее, это не является обязательным во всех случаях. Несмотря на это, идея RL кажется наиболее правдоподобной техникой сделать машину творческой, поскольку открытость новым подходам к выполнению работы по определению является творческой. Следовательно, обучение с подкреплением может стать следующим этапом в развитии искусственного интеллекта.

Ссылка:

Искусственный интеллект: современный подход, глобальное издание Copertina flessibile — 20 мая 2021 г.