Practicum Cognitie

Q learning en \(\gamma\)

In de vorige les hebben we gezien dat we in de Q-functie een parameter \(gamma\) hebben, die reward "in de toekomst" minder zwaar telt dan onmiddelijke reward. In dit practicum gaan we zien waarom deze parameter handig is en in welke situaties.

Rechts zie je een aantal nieuwe functionaliteiten, ten eerste kun je nu zien hoe de kaart wordt opgebouwd in `World'.

Daar heb je drie soorten reward-tegels:

Ook zie je een nieuwe constante PROB_WORLD_END. Na 100 episodes geeft deze constante kans dat in een willekeurige stap van een episode de wereld vergaat. Daarvoor vergaat de wereld nooit, zodat de robot eerst goed kan leren. Als je je reward wilt maximaliseren moet je hier rekening mee houden: als je in 10 stappen een hele grote reward kan krijgen, maar de kans is groot dat voor die tijd de wereld vergaat, dan wil je misschien liever een reward pakken die kleiner is, maar dichterbij ligt,

Op hoeveel stappen ligt de grote reward en op hoeveel stappen ligt de kleine reward?

Hoe groot is de kans dat je de grote reward bereikt voordat de wereld vergaat, als je de snelste route neemt? En hoe groot is die kans voor de kleine reward?

Hoe groot is de verwachtte return \(E[r]\) als je rechtsreeks naar de grote/kleine reward loopt.

Naar welke reward moet je lopen om je verwachtte reward te maximaliseren?

Draai de simulatie en kijk wat er gebeurt. Naar welke research site rijdt de robot nu meestal? Is dit optimaal?

Welke parameter kun je aanpassen om het gedrag van de robot optimaal te maken? Probeer dit uit.

Zet de kans dat de wereld vergaat nu op 0.0. Waar gaat de robot nu naar toe?

Is dit de optimale keuze?

Welke parameter kun je aanpassen om de robot wel de optimale keuze te laten maken? Probeer dit uit.