Učenie s posilňovaním
Biológiu učenia posilňovaním nájdete na stránkach Operantné podmieňovanie a Odmena
Učenie posilňovaním (Reinforcement learning, RL) je učenie softvérového agenta, ako sa má správať v prostredí, tým, že mu poviete, ako dobre si počína. Je to oblasť strojového učenia inšpirovaná behavioristickou psychológiou.
Učenie s posilňovaním sa líši od učenia pod dohľadom, pretože nikdy nie sú zobrazené správne vstupy a výstupy. Posilňovacie učenie sa tiež zvyčajne učí za pochodu (online učenie) na rozdiel od učenia pod dohľadom. To znamená, že agent si musí vybrať medzi skúmaním a zotrvaním pri tom, čo vie najlepšie.
Úvod
Systém posilňovania sa skladá z politiky ( π {\displaystyle \pi } ), funkcie odmeňovania ( R {\displaystyle R} ), funkcie hodnoty ( v {\displaystyle v} ) a voliteľného modelu prostredia.
Zásada hovorí agentovi, čo má v určitej situácii urobiť. Môže to byť jednoduchá tabuľka pravidiel alebo zložité hľadanie správnej akcie. Politiky môžu byť dokonca stochastické, čo znamená, že namiesto pravidiel politika priraďuje každej akcii pravdepodobnosti. Politika sama o sebe môže prinútiť agenta robiť veci, ale nemôže sa sama učiť.
Funkcia odmeny definuje cieľ pre agenta. Prijíma stav (alebo stav a akciu vykonanú v tomto stave) a vracia číslo nazývané odmena, ktoré agentovi hovorí, aké dobré je byť v tomto stave. Úlohou agenta je získať z dlhodobého hľadiska čo najväčšiu sumu odmeny. Ak akcia prináša nízku odmenu, agent pravdepodobne v budúcnosti vykoná lepšiu akciu. Biológia používa signály odmeny, ako je potešenie alebo bolesť, aby sa uistila, že organizmy zostanú nažive a budú sa môcť rozmnožovať. Signály odmeny môžu byť aj stochastické, podobne ako hracie automaty v kasíne, kde niekedy vyplácajú a niekedy nie.
Hodnotová funkcia hovorí agentovi, akú odmenu dostane podľa politiky π {\displaystyle \pi } začínajúcej zo stavu s {\displaystyle s} . Vyjadruje, aké žiaduce je byť v určitom stave. Keďže hodnotová funkcia nie je agentovi priamo daná, musí prísť s dobrým odhadom alebo odhadom na základe odmeny, ktorú doteraz získal. Odhad hodnotovej funkcie je najdôležitejšou časťou väčšiny algoritmov posilňovania učenia.
Model je agentova mentálna kópia prostredia. Používa sa na plánovanie budúcich akcií.
Ak to vieme, môžeme hovoriť o hlavnej slučke pre epizódu posilňovania učenia. Agent interaguje s prostredím v diskrétnych časových krokoch. Predstavte si to ako "tikot" hodín. Pri diskrétnom čase sa veci dejú len počas "tikov" a "taktov", a nie medzi nimi. V každom čase t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } agent pozoruje stav prostredia S t {\displaystyle S_{t}} a vyberá akciu A t {\displaystyle A_{t}} na základe politiky π {\displaystyle \pi } . V ďalšom časovom kroku agent dostane signál odmeny R t + 1 {\displaystyle R_{t+1}} a nové pozorovanie S t + 1 {\displaystyle S_{t+1}} . Hodnotová funkcia v ( S t ) {\displaystyle v(S_{t})} sa aktualizuje pomocou odmeny. Takto sa pokračuje, kým sa nedosiahne koncový stav S T {\displaystyle S_{T}} .