Вопросы по теме 'markov'
Библиотеки Python для онлайн-обучения MDP
Я пытаюсь разработать итеративный агент марковского процесса принятия решений (MDP) в Python со следующими характеристиками:
observable state
I handle potential 'unknown' state by reserving some state space
for answering query-type moves...
2072 просмотров
schedule
29.10.2023
Интуиция, стоящая за итерацией политики в сетевом мире
Я должен придумать агент MDP, который использует итерацию политики и итерацию значения для назначения, и сравнить его производительность со значением полезности состояния.
Как агент MDP, зная вероятности перехода и вознаграждения, узнает, какое...
1388 просмотров
schedule
16.09.2022
Установка гаммы и лямбды в обучении с подкреплением
В любом из стандартных алгоритмов обучения с подкреплением, которые используют обобщенную временную разность (например, SARSA, Q-обучение), возникает вопрос, какие значения использовать для гиперпараметров лямбда и гамма для конкретной задачи.
Я...
6848 просмотров
schedule
16.03.2024
Как рассчитывается оптимальная политика для периодических коммунальных услуг?
Решения для экзаменов
Я изучаю марковский процесс принятия решений и для вопроса 6 экзамена (см. ссылку, прикрепленную выше) я понимаю, как рассчитывается полезность, когда такое же состояние получается после действия (часть а вопроса 6)....
61 просмотров
schedule
29.05.2024
показать навигацию на графике в R
Я пытаюсь показать навигацию на графике R. Текущий статус во время один или (t1) устанавливается как val$currentstatus, а следующий статус в (t2) должен отображаться на графике на основе действия, которое пользователь выбирает в чековой книжке....
84 просмотров
schedule
28.03.2024
Что такое конечное состояние в gridworld?
Я изучаю марковский процесс принятия решений. Я не знаю, где отметить терминальные состояния.
В мире сетки 4x3 я отметил конечное состояние, которое считаю правильным (могу ошибаться) с помощью T. Рис
Я видел состояние терминала с пометкой...
82 просмотров
schedule
28.04.2024