Fachkonzept: Wahrnehmungs-Aktions-Schleife

Text: Reinforcement Learning (deutsch: „Verstärkungslernen“) beschreibt verschiedene Verfahren des Maschinellen Lernens, bei dem ein Programm lernt, möglichst optimale Aktionen in bestimmten Situationen seiner Umwelt auszuführen. Ein Software-Programm, das die Handlungen situationsabhängig steuert, wird in der Informatik auch als „Software-Agent“ oder kurz „Agent“ bezeichnet (lat.: agere – handeln). Ein typischer Software-Agent ist ein (computergesteuerter) Gegenspieler in einem Computerspiel. Das Spielszenario selbst stellt seine Umwelt dar. Wenn ein Agent nicht fest programmiert ist sondern optimales Handeln erst erlernen muss, so muss er während des Lernvorgangs eine Rückmeldung darüber erhalten, wie gut eine bestimmte Handlung war und wie sich diese auf seine Situation innerhalb seiner Umwelt ausgewirkt hat. Wir müssen also drei Dinge unterscheiden:

  • Die vom Agenten jeweils wahrgenommene Situation. In unseren Überlegungen werden wir die Situationen einfach durchnummerieren und bezeichnen die Situationsnummer mit dem Variablennamen $s$.
  • Die vom Agenten jeweils ausgeführte Aktion. Auch die Aktionen nummerieren wir durch und nennen sie die entsprechnede Variable $a$.
  • Die Belohnung, die der Agent für eine bestimmte Aktion in einer bestimmten Situation erhält (wobei „Bestrafungen“ als „negative Belohnungen“ gedeutet werden). Wegen der englischen Bezeichnung „reward“ für Belohnung verwenden wir das Formelsymbol $r$.
Das ständige Wiederholen der Schritte : (a) Wahrnehmen der jeweiligen Situation, (b) das Entscheiden über die durchzuführende Aktion und (c) die Bewertung der hieraus resultierenden Belohnung wird als Wahrnehmungs-Aktions-Schleife (Perception-Action-Loop) oder Wahrnehmungs-Aktions-Zyklus (Perception-Action-Cycle) bezeichnet.
Wahrnehmungs-Handlungs-Schleife[1]

Quellen

X

Fehler melden

X

Suche