i

Fachkonzept: Gierig und neugierig

Gierige Strategien

Das Verfahren, das du im letzten Abschnitt entwickelt hast, bestimmt aus den verschiedenen Q-Werten zu den möglichen Aktionen immer den allerbesten Q-Wert und gibt die entsprechende Aktion zurück.

Eine solche Strategie wird in der Informatik als "gierig" (engl.:
"greedy") bezeichnet.

Wenn die Q-Werte der in der Q-Tabelle mit der Realität genau
übereinstimmen, sorgt eine gierige Strategie für ein optimales
Verhalten des Agenten.

Problematisch ist es allerdings, wenn die Q-Werte nicht der Realität entsprechen. Dann wird eine gierige Strategie dazu führen, dass das Programm niemals etwas anderes tut als das, was es für optimal hält.

Bei einem Programm, das sein Verhalten erlernen oder selbstständig
optimieren soll, ist dies ein gewaltiger Nachteil. Denn wie im
richtigen Leben: Wenn man nicht mal etwas Neues ausprobiert, lernt man
nichts dazu.

Neuigierige Stratgien

Damit ein Verfahren ab und zu etwas Neues ausprobiert, kann man mit einer gewissen Wahrscheinlichkeit von der als optimal angesehenen Aktion abweichen.

Wohl gemerkt: Mit einer nicht allzu großen Wahrscheinlichkeit. Denn
wenn man fast immer etwas anderes tut als das, was man für gut hält,
dann hätte man sich das bisherige Lernen auch sparen können und man
kann beim Lernen seine bisherigen Erfahrungen nicht nutzen.

Eine solche neugierige Strategie kann so aussehen, dass man mit der
Wahrscheinlichkeit $\varepsilon$ (griech. Buchstabe "epsilon") eine
andere als die optimale Aktion ausführt, mit der
Gegenwahrscheinlichkeit $1-\varepsilon$ jedoch weiterhin die optimale
Aktion.

Eine solche Strategie wird als $\varepsilon$-gierig ($\varepsilon$-greedy) bezeichnet. Den Buchstabe $\varepsilon$ kann man sich gut merken, wenn man an die Wörter "erkunden" oder englisch "to explore" denkt.

Suche

v
12.8.4.3
www.inf-schule.de/gesellschaft/reinforcement-learning/weich-kodierte-intelligenz/fk-gierig-und-neugierig

Rückmeldung geben