Публикации по темата vpg

Свързани публикации 'vpg'

Vanilla Policy Gradient от нулата

Изградете един от най-простите алгоритми за обучение за подсилване с PyTorch Някога чудили ли сте се как работи обучението с подсилване (RL)? В тази статия ще изградим една от най-простите форми на RL от нулата – алгоритъм за ванилен градиент на политика (VPG). След това ще го обучим да изпълни известното предизвикателство „CartPole“ — да се научи да движи количка отляво надясно, за да балансира стълб. Правейки това, ние също ще завършим първото предизвикателство към ресурса за..

Свързани публикации 'vpg'

Vanilla Policy Gradient от нулата

Подобни въпроси