i

Fachkonzept: Lernrate

Um mit zufälligen Ereignissen bzw. mit Chancen und Risiken umzugehen, sorgt man beim Q-Learning-Algorithmus dafür, dass sich einzelne positive (oder negative) Erfahrungen nicht "schlagartig" auf die Q-Werte auswirken sondern nur allmählich.

Bisher wurde der Q-Wert beim Lernen direkt auf die Summe aus Belohnung und (etwas
reduziert) den künftigen besten Q-Wert gesetzt:

\begin{equation}
Q(s,a) \leftarrow r + \gamma \cdot \max_{a'} Q(s',a')
\end{equation}

Nun gehen wir etwas behutsamer vor und verschieben den Q-Wert nur ein
Stück weit in Richtung dieses Wertes. Wir bilden dafür eine Art
Mittelwert zwischen dem alten Q-Wert und der oben beschriebenen
Summe.

\begin{equation}
Q(s,a) \leftarrow (1-\alpha) \cdot Q(s,a) + \alpha \cdot \left (r + \gamma \cdot \max_{a'} Q(s',a')\right)
\end{equation}

Die neue Variable $\alpha$ heißt Lernrate. Ihr Wert liegt
typischerweise irgendwo zwischen 0 und 1.

Den Einfluss, die die Lernrate auf das Lernen hat, kann man sich gut
verdeutlichen, wenn man zwei Extremfälle betrachtet:

  • $\alpha=1$
    In diesem Fall wird der erste Summand 0 und die Formel reduziert sich gerade wieder auf die ursprüngliche, die wir vorher verwendet hatten und bei der der bisherige Q-Wert vollkommen in Vergessenheit gerät:
    \begin{equation} 
        Q(s,a) \leftarrow r + \gamma \cdot \max_{a'} Q(s',a') 
    \end{equation}
    </li>
  • $\alpha=0$
    In diesem Fall ist der zweite Summand 0 und der Q-Wert ändert sich einfach überhaupt nicht: \begin{equation} Q(s,a) \leftarrow Q(s,a) \end{equation}

Die Lernrate $\alpha$ steuert also, wie stark eine neue Erfahrung den
Q-Wert beeinflusst. Kleine Werte für $\alpha$ sorgen für eine starke
Gewichtung des bisher Gelernten und ein nur langsames Lernen. Große
Werte für $\alpha$ sorgen für eine schnelle Anpassung der Q-Werte, aber
auch für ein etwas "sprunghaftes" Verhalten.

Suche

v
12.8.6.2
www.inf-schule.de/gesellschaft/reinforcement-learning/umgang-mit-chancen-und-risiken/fk-lernrate

Rückmeldung geben