Публикации по теме 'vpg'
Ванильный градиент политики с нуля
Создайте один из самых простых алгоритмов обучения с подкреплением с помощью PyTorch
Вы когда-нибудь задумывались, как работает обучение с подкреплением (RL)?
В этой статье мы создадим с нуля одну из самых простых форм RL — алгоритм ванильного политик-градиента (VPG). Затем мы обучим его выполнять знаменитую задачу CartPole — научиться перемещать тележку слева направо, чтобы сбалансировать шест. При этом мы также выполним первую задачу учебного ресурса OpenAI Spinning Up ...