Свързани публикации 'vpg'


Vanilla Policy Gradient от нулата
Изградете един от най-простите алгоритми за обучение за подсилване с PyTorch Някога чудили ли сте се как работи обучението с подсилване (RL)? В тази статия ще изградим една от най-простите форми на RL от нулата – алгоритъм за ванилен градиент на политика (VPG). След това ще го обучим да изпълни известното предизвикателство „CartPole“ — да се научи да движи количка отляво надясно, за да балансира стълб. Правейки това, ние също ще завършим първото предизвикателство към ресурса за..