Отказ от ответственности: этот пост был создан с использованием генеративного ИИ — отнеситесь к его содержанию с недоверием! 🔥💥. Начните создавать свои собственные с помощью Cohere.

TL;DR:

TL;DR PG — это алгоритм RL, который напрямую оптимизирует функцию политики, изменяя ее параметры с помощью градиентного подъема. Он имеет несколько преимуществ по сравнению с методами, основанными на значениях, но может страдать от таких проблем, как высокая дисперсия в оценках градиента. Мы подробно описываем метод PG, обсуждаем интуицию, стоящую за ним, как он работает, и предоставляем реализацию PyTorch. Мы также рассмотрим его сильные стороны и ограничения, обсудим различные модификации и расширения, а также расскажем, как максимизировать функцию полезности с помощью правила обновления градиентного подъема.
Отказ от ответственности: в этой статье используется Cohere для генерации текста.

Краткое содержание:

;], что дает нам: Изображение автора Это уравнение также известно как теорема градиента политики или оценка градиента функции оценки. Здесь P(τ; θ) — это вероятность того, что траектория τ реализуется по параметрам политики θ. Этот термин также известен как вероятность траектории и имеет ту же форму, что и вероятность выборки данных при обучении с учителем. P(τ; θ) является мерой того, насколько вероятно, что агент выберет траекторию τ при политике π с набором параметров θ. Итак, поскольку P(τ; θ) отличен от нуля только тогда, когда агент выбирает траекторию τ, мы можем использовать его для измерения вероятности выбора этой траектории. Алгоритм Теперь, когда у нас есть градиент функции полезности, мы можем использовать его для обновления параметров политики и продолжать процесс, пока не достигнем оптимальной политики. Алгоритм следующий: 1. Инициализировать параметры политики θ. 2. Выберите траекторию τ = s₀, a₀, s₁, a₁, …, sₕ, aₕ. 3. Вычислить доходность R(τ). 4. Вычислите и после некоторых алгебраических манипуляций мы получим следующее выражение: Изображение автора Обратите внимание, что: ∇log P(τ; θ) — это функция оценки траектории τ, которая представляет собой просто градиент логарифмической вероятности траектории над параметрами политики. Изображение автора Алгоритм Теперь, когда у нас есть градиент функции полезности по параметрам политики, мы можем разработать алгоритм. PG — это тип актерско-критического метода, что означает, что он состоит из двух компонентов: актера и критика. Действующее лицо — это политика, которая параметризуется параметром θ. Критик — это оценка ожидаемой доходности полиса, которая на самом деле является функцией полезности U(θ). Основной алгоритм выглядит так: Изображение автора Pytorch Реализация Теперь мы можем реализовать этот алгоритм в Pytorch и посмотреть, как он работает. Сети Я буду использовать простую сеть прямой связи с двумя слоями нейронов ReLU в качестве сети политик. Я буду использовать один слой нейронов ReLU в качестве сети критика. Цикл обучения (основной алгоритм) для эпизода в диапазоне (max_episodes): # сбросить среду и награду за эпизод Episode_rewards = [] # инициализировать учетные переменные для текущих состояний эпизода, действий, наград =

Откройте для себя полную историю, первоначально опубликованную в разделе Навстречу ИИ.
Присоединяйтесь ко мне в этом невероятном путешествии по генеративному ИИ и станьте частью революции. Стать участником или Купить мне кофе. Следите за обновлениями и идеями о генеративном ИИ, подписываясь на меня в Twitter, Linkedin или мой сайт. Ваша поддержка действительно ценится!

Рекомендации ресурсов для начала работы с генеративным ИИ:

Учебники, руководства и демонстрации по генеративному ИИ

Генеративный ИИ с Python и Tensorflow 2

Трансформеры для обработки естественного языка

Изучение GPT-3