Cognitie Les 2

One Armed Bandits pt. 2

In de vorige les hebben we naar het n-armed bandit problem gekeken en het bijbehorende exploration-vs-exploitation-dilemma. We hebben gezien dat we de agent in het begin van het probleem verschillende bandits/acties uit willen laten proberen om erachter te komen welke hendel(s) het beste zijn, maar later moet de agent vooral de hendel(s) gebruiken die waarschijnlijk het best uitbetalen, om zo z'n reward te maximaliseren. Hier zijn verschillende algoritmen voor, zoals $\epsilon$-first en $\epsilon$-decreasing

Een geavanceerdere manier om acties te selecteren, is om niet alleen het aantal tijdstippen mee te nemen, maar de onzekerheid.

Als je een gemiddelde neemt over een serie stochastische variabelen, hoort daar ook een standaarddeviatie (SD) bij: de verwachte afwijking t.o.v. het gemiddelde: $$ \sigma = \sqrt{\operatorname E[(X - \mu)^2]}\\$$ De standard error (SE) is de verwachte afwijking van deze schatting (het gemeten gemiddelde) t.o.v. het echte gemiddelde. Deze is gelijk aan. $$SE_\bar{x}\ = \frac{\sigma}{\sqrt{n}}$$ Waar $n$ het aantal metingen is.

We weten dat de bandits met een bepaalde kans ($p$) een reward geven en anders niet: Ze gedragen zich dus naar een Bernoulli-verdeling, waarvan de gemiddelde waarde gelijk is aan: $$E(X) = p$$ en waarvan de standaarddeviatie als volgt uit te rekenen is:

$$SD_{Bernoulli} = \sqrt{p(1- p)}$$

Dus is de Standard Error gelijk aan:

$$SE_{Bernoulli} = \frac{\sqrt{\hat{p}(1- \hat{p})}}{\sqrt{n}}$$

waar $p$ de gemiddelde uitkering is en $n$ het aantal metingen.

De sampling distributie van een Bernoulli-verdeling kan benaderd worden door een normaal-verdeling, wat betekent dat we ervan uit kunnen gaan dat de echte gemiddelde reward van een bandit met 95% zekerheid binnen het confidence interval ligt van

$$\hat{p} \pm 1.96 \cdot SE_\hat{p}$$ En dus met 95% zekerheid dat $$p < CI $$ waar $$CI = \hat{p} + 1.96 \cdot SE_{\hat{p}}$$ Bij Interval Learning neemt een agent de onzekerheid in z'n metingen mee in de actie-selectie: hij neemt telkens de actie waarbij de waarde waarvan hij voor 95% zeker weet dat de werkelijke payoff lager is, het hoogst is.

$$\DeclareMathOperator*{\argmax}{\arg\!\max} \argmax_{a}{}(CI_a)$$

Het gevolg hiervan is dat de agent vooral acties kiest die (1) nog onzeker zijn en (2) misschien wel een hoge payoff hebben.

Implementeer Interval Learning. Het enige wat je daarvoor nog aan hoeft te passen is regel 4 en 5 in de Update-functie en de Action Selection-functie. (hint: Q[a] = $\hat{p}_a$ en k[a] = $n$)

Draai nu een paar experimenten en plot een grafiek in je spreadsheet. Doet deze methode het daadwerkelijk beter dan $\epsilon$-greedy?

Bij neurowetenschappelijk onderzoek wordt onder andere onderzoek gedaan met muizen, waarbij bepaalde onderdelen van het brein worden uitgeschakeld door laesies, neurofarmacologische interventies of optogenetica. Zo blijkt je het gedrag van muizen in taakjes zoals de n-armed bandit aan te kunnen passen. Stel dat je de hersenen een muis probeert te modelleren aan de hand van reinforcement learning-modellen, zoals die waarme je in de afgelopen 2 lessen hebt gezien. Probeer voor elk van de volgende interventies te bedenken hoe je het gedrag van de muis zou kunnen 'simuleren' door parameters of functies in het RL-model (Epsilon, Action-selection-functie, Update-functie...) aan te passen:

Het korte-termijn geheugen van de muis wordt middels een laesie uigeschakeld.

Een dopamine-antagonist wordt toegediend, waardoor de muis nauwelijks nog direct genot kan voelen.

De muis krijgt adrenaline toegediend, waardoor deze veel avontuurlijker wordt.

De muis wordt door een farmacologisch model van PTSD erg angstig gemaakt.

Dit was les 2 van het practicum, ga door naar les 3.

Practicum Cognitie

One Armed Bandits pt. 2