Google hat ein paar Tagen vorher das Einführung eines neuen Rahmens für flexible und reproduzierbare Forschung im Bereich des verstärkten Lernens (Reinforcement Learning) hier präsentiert.
Designprinzipien von Dopamine sind:
- Einfaches Experimentieren
- Flexible Entwicklung
- Kompakt und zuverlässig
- Reproduzierbar
Im Geiste dieser Prinzipien konzentriert sich diese erste Version auf die Unterstützung des hochmodernen, ein-GPU- Rainbow-Agenten ( Hessel et al., 2018 ), der auf das Atari 2600-Spiel angewendet wurde ( Bellemare et al., 2013 ). Insbesondere implementiert Dopamine’s Rainbow-Agent die drei Komponenten, die von Hessel et al. als am wichtigsten identifiziert wurden:
- n-step Bellman Updates (siehe z.B. Mnih et al., 2016)
- Priorisierte Erfahrungswiederholung ( Schaul et al., 2015)
- Verteilungsverstärkungslernen ( C51; Bellemare et al., 2017)
Mehr über wie Sie mit Dopamine spielen können, lesen Sie hier.
Neueste Kommentare