Вопросы по теме 'markov'

Библиотеки Python для онлайн-обучения MDP
Я пытаюсь разработать итеративный агент марковского процесса принятия решений (MDP) в Python со следующими характеристиками: observable state I handle potential 'unknown' state by reserving some state space for answering query-type moves...
2072 просмотров
schedule 29.10.2023

Интуиция, стоящая за итерацией политики в сетевом мире
Я должен придумать агент MDP, который использует итерацию политики и итерацию значения для назначения, и сравнить его производительность со значением полезности состояния. Как агент MDP, зная вероятности перехода и вознаграждения, узнает, какое...
1388 просмотров

Установка гаммы и лямбды в обучении с подкреплением
В любом из стандартных алгоритмов обучения с подкреплением, которые используют обобщенную временную разность (например, SARSA, Q-обучение), возникает вопрос, какие значения использовать для гиперпараметров лямбда и гамма для конкретной задачи. Я...
6848 просмотров

Как рассчитывается оптимальная политика для периодических коммунальных услуг?
Решения для экзаменов Я изучаю марковский процесс принятия решений и для вопроса 6 экзамена (см. ссылку, прикрепленную выше) я понимаю, как рассчитывается полезность, когда такое же состояние получается после действия (часть а вопроса 6)....
61 просмотров
schedule 29.05.2024

показать навигацию на графике в R
Я пытаюсь показать навигацию на графике R. Текущий статус во время один или (t1) устанавливается как val$currentstatus, а следующий статус в (t2) должен отображаться на графике на основе действия, которое пользователь выбирает в чековой книжке....
84 просмотров
schedule 28.03.2024

Что такое конечное состояние в gridworld?
Я изучаю марковский процесс принятия решений. Я не знаю, где отметить терминальные состояния. В мире сетки 4x3 я отметил конечное состояние, которое считаю правильным (могу ошибаться) с помощью T. Рис Я видел состояние терминала с пометкой...
82 просмотров