Проблемите с подсиленото обучение включват научаване какво да правим — как да го правим.
Ние съпоставяме състоянията с действията, за да увеличим числения сигнал за награда. Вътре
Важното е, че те са проблеми със затворен цикъл, тъй като действията на системата за обучение
засягат последващи записи. Освен това, както при много форми на машинно обучение, на обучаемия не се казва какви действия да предприеме, а вместо това трябва да изследва. Кои действия носят най-много награди, като бъдат изпробвани.

ВАЖНИ УСЛОВИЯ в ПОТРЕПИТЕЛНОТО ОБУЧЕНИЕ

  • Агент: Субект, който може да възприема/изследва околната среда и да действа спрямо нея.
  • Среда: Ситуация, в която агент присъства или е заобиколен от. В Reinforcement Learning приемаме стохастичната среда, което означава, че тя е произволна по природа.
  • Действие: Действията са ходовете, предприети от агент в средата.
  • Състояние: Състоянието е ситуация, върната от средата след всяко действие, предприето от агента.
  • Награда: Обратна връзка, върната на агента от средата, за да се оцени действието на агента.
  • Политика: Политиката е стратегия, прилагана от агента за следващото действие въз основа на текущото състояние.
  • Стойност: Очаква се дългосрочно възвръщане с коефициента на отстъпка и противоположно на краткосрочната награда.
  • Q-стойност: До голяма степен е подобна на стойността, но приема един допълнителен параметър като текущо действие.

ЕЛЕМЕНТИ НА ОБУЧЕНИЕ ЗА ПОДКРЕПВАНЕ

Можем да идентифицираме четири основни поделемента на системата за обучение за укрепване:

  • Политика
  • Сигнал за награда
  • Стойностна функция
  • Модел на околната среда (по избор)

ПОЛИТИКА

Политиката определя начина на поведение на обучаващия агент в даден момент. Политиката може да бъде проста функция или справочна таблица. Политиката е ядрото на агента за обучение за укрепване в смисъл, че сама по себе си е достатъчна за определяне на поведението.

СИГНАЛ ЗА НАГРАДА

Сигналът за награда определя целта в проблем с обучението за подсилване. На всяка времева стъпка средата изпраща на агента за обучение с подсилване едно число, награда. Единствената цел на агента е да увеличи максимално общата награда, която получава в дългосрочен план. По този начин сигналът за награда определя кои са добрите и лошите събития за агента.

ФУНКЦИЯ ЗА СТОЙНОСТ

Функцията на стойността определя какво е добро в дългосрочен план. Стойността на дадено състояние е общата сума на възнаграждението, което агентът може да очаква да натрупа в бъдеще, започвайки от това състояние. Докато възнагражденията определят непосредствената, присъща желателност на състоянията на околната среда, стойностите показват дългосрочната желателност на състоянията след като се вземат предвид състоянията, които вероятно ще последват, и наградите, налични в тези състояния.

Например, дадено състояние може винаги да дава ниска незабавна награда, но все пак да има висока стойност, тъй като редовно се следва от други състояния, които дават високи награди. Или обратното може да е вярно. Наградите основно се дават директно от околната среда, но стойностите трябва да бъдат оценени и преоценени от последователностите от наблюдения, които агентът прави през целия си живот. Всъщност най-важният компонент на почти всички алгоритми за обучение с подсилване, които разглеждаме, е метод за ефективно оценяване на стойности. Централната роля на оценката на стойността е може би най-важното нещо, което сме научили за обучението за засилване през последните няколко десетилетия.

МОДЕЛ НА ОКОЛНАТА СРЕДА

Модел на околната среда е нещо, което имитира поведението на
околната среда или по-общо казано, което позволява да се правят изводи за това как ще се държи околната среда.

Например, при дадено състояние и действие, моделът може да предвиди последващото следващо състояние и следващата награда. Моделите се използват за планиране, под което имаме предвид всеки начин за вземане на решение за курс на действие чрез разглеждане на възможни бъдещи ситуации, преди те действително да бъдат изживени. Методите за решаване на проблеми с обучението за подсилване, които използват модели и планиране, се наричат ​​методи, базирани на модели, за разлика от по-простите методи без модели, които са изрично обучаеми чрез проба и грешка - разглеждани като почти противоположни на планирането.

ПОДХОДИ ЗА УЧЕНЕ ЗА ПОДКРЕПВАНЕ

Има основно три начина за прилагане на обучението с подсилване:

  1. ОСНОВАН НА СТОЙНОСТТА

Базираният на стойността подход е на път да намери оптималната функция на стойността, която е максималната стойност в дадено състояние при всяка политика. Следователно агентът очаква дългосрочна възвръщаемост във всяко състояние(а) съгласно политиката.

2. БАЗИРАН НА ПОЛИТИКА

Подходът, базиран на политика, е да се намери оптималната политика за максимални бъдещи награди, без да се използва функцията на стойността. При този подход агентът се опитва да приложи такава политика, че действието, извършено във всяка стъпка, помага за максимизиране на бъдещата награда.
Подходът, базиран на политика, има основно два типа политика:

  • Детерминистично: Едно и също действие се произвежда от политиката във всяка държава.
  • Стохастик: В тази политика вероятността определя произведеното действие.

3. ВЪЗ МОДЕЛИ

При базирания на модел подход се създава виртуален модел за средата и агентът изследва тази среда, за да я научи. Няма конкретно решение или алгоритъм за този подход, тъй като представянето на модела е различно за всяка среда.