Публикации по теме 'vpg'


Ванильный градиент политики с нуля
Создайте один из самых простых алгоритмов обучения с подкреплением с помощью PyTorch Вы когда-нибудь задумывались, как работает обучение с подкреплением (RL)? В этой статье мы создадим с нуля одну из самых простых форм RL — алгоритм ванильного политик-градиента (VPG). Затем мы обучим его выполнять знаменитую задачу CartPole — научиться перемещать тележку слева направо, чтобы сбалансировать шест. При этом мы также выполним первую задачу учебного ресурса OpenAI Spinning Up ...