i

Fachkonzept: Wahrnehmungs-Aktions-Schleife

Text:

Reinforcement Learning (deutsch: „Verstärkungslernen“) beschreibt
verschiedene Verfahren des Maschinellen Lernens, bei dem ein Programm
lernt, möglichst optimale Aktionen in bestimmten Situationen seiner
Umwelt auszuführen. Ein Software-Programm, das die Handlungen
situationsabhängig steuert, wird in der Informatik auch als
„Software-Agent“ oder kurz „Agent“ bezeichnet (lat.: agere – handeln).
Ein typischer Software-Agent ist ein (computergesteuerter) Gegenspieler
in einem Computerspiel. Das Spielszenario selbst stellt seine Umwelt
dar. Wenn ein Agent nicht fest programmiert ist sondern optimales
Handeln erst erlernen muss, so muss er während des Lernvorgangs eine
Rückmeldung darüber erhalten, wie gut eine bestimmte Handlung war und
wie sich diese auf seine Situation innerhalb seiner Umwelt ausgewirkt
hat.

Wir müssen also drei Dinge unterscheiden:

  • Die vom Agenten jeweils wahrgenommene Situation. In unseren Überlegungen werden wir die Situationen einfach durchnummerieren und bezeichnen die Situationsnummer mit dem Variablennamen $s$.
  • Die vom Agenten jeweils ausgeführte Aktion. Auch die Aktionen nummerieren wir durch und nennen sie die entsprechnede Variable $a$.
  • Die Belohnung, die der Agent für eine bestimmte Aktion in einer bestimmten Situation erhält (wobei „Bestrafungen“ als „negative Belohnungen“ gedeutet werden). Wegen der englischen Bezeichnung „reward“ für Belohnung verwenden wir das Formelsymbol $r$.

Das ständige Wiederholen der Schritte : (a) Wahrnehmen der jeweiligen
Situation, (b) das Entscheiden über die durchzuführende Aktion und (c)
die Bewertung der hieraus resultierenden Belohnung wird als
Wahrnehmungs-Aktions-Schleife (Perception-Action-Loop) oder
Wahrnehmungs-Aktions-Zyklus (Perception-Action-Cycle) bezeichnet.

Wahrnehmungs-Handlungs-Schleife[1]

Quellen

Suche

v
12.8.2.2
www.inf-schule.de/gesellschaft/reinforcement-learning/perception-action/fk-perception-action

Rückmeldung geben