Clear Sky Science · de

Die Dauer zwischen Belohnungen steuert die Geschwindigkeit des Verhaltens- und Dopamin-Lernens

2026-02-12 · Zurück zur Übersicht

Warum das Tempo der Belohnungen wichtig ist

Lehrer warnen vor last-minute-Pauken, und Tiertrainer verteilen Leckerlis mit Pausen—aber warum helfen Pausen beim Lernen? Diese Studie stellt eine überraschend einfache Frage mit großen Folgen: Wenn man lernen möchte, dass ein Signal eine Belohnung vorhersagt, ist es besser, viele schnelle Belohnungen zu erhalten oder weniger, dafür weiter auseinanderliegende Belohnungen? Indem die Forschenden Tropfen Zuckerwasser zeitlich präzise an Mäuse verabreichen und sowohl ihr Verhalten als auch ihre Gehirnchemie messen, zeigen sie eine mathematische Regel: die Zeit zwischen Belohnungen, nicht die reine Anzahl der Durchgänge, bestimmt, wie schnell gelernt wird.

Weniger, aber besser verteilte Belohnungen führen zum Lernen

Das Team konditionierte durstige, am Kopf fixierte Mäuse darauf, einen kurzen Ton mit einem winzigen Schluck süßer Flüssigkeit zu verbinden. Alle Mäuse hörten denselben Ton und erhielten kurz darauf dieselbe Belohnung, doch die Zeit bis zum nächsten Ton-Belohnungs-Zyklus variierte stark—von einer halben Minute bis zu zehn Minuten und in einer Gruppe bis zu einer Stunde. Mäuse mit kurzen Pausen erfuhren viele Ton–Belohnungs-Paarungen pro Tag, jene mit langen Pausen nur wenige. Intuitiv könnte man erwarten, dass der „geschäftige“ Plan schnelleres Lernen bewirkt. Stattdessen zeigte sich das Gegenteil: Bei zehnmal längeren Pausen benötigten die Mäuse etwa zehnmal weniger Ton–Belohnungs-Erfahrungen, um die Assoziation zu erlernen.

Gleiches Lernen in gleicher Zeit, unabhängig von der Anzahl der Durchgänge

Obwohl die weit auseinanderliegenden Mäuse deutlich weniger Erfahrungen brauchten, lernten sie nicht wirklich schneller in Echtzeit. Als die Forschenden berechneten, wie viele Minuten Konditionierung vergangen waren, bevor jede Maus zuverlässig erwartungsvolles Lecken zeigte, war die Gesamtzeit bis zum Lernen in den Gruppen mit 20-fach unterschiedlichen Pausen nahezu identisch. Anders gesagt: Das Dehnen des Intervalls zwischen Belohnungen machte jede einzelne Erfahrung proportional zur Wartezeit wirkungsvoller für das Lernen. Das Entfernen von neun von zehn Durchgängen aus einem dichten Trainingsplan hatte im Grunde keinen Einfluss darauf, wie lange es dauerte, bis die Assoziation entstand, vorausgesetzt, die insgesamt verstrichene Zeit im Trainingssetting blieb gleich.

Dopamin-Signale folgen derselben Regel

Um zu untersuchen, was im Gehirn vor sich geht, verwendeten die Wissenschaftlerinnen und Wissenschaftler einen fluoreszenten Sensor zur Messung von Dopamin, einem chemischen Botenstoff, der lange Bestand als Signal für Belohnungsprognosefehler galt—also die Differenz zwischen erwarteter und tatsächlicher Belohnung. Im Verlauf des Trainings verschoben sich kurzzeitige Dopamin-Anstiege allmählich vom eigentlichen Belohnungszeitpunkt hin zum vorhersagenden Ton. Entscheidend war: Diese Dopamin-Reaktionen zeigten dieselbe Zeitregel wie das Verhalten: Wenn Belohnungen zehnmal weiter auseinander lagen, trat der Dopaminanstieg zur Vorhersage nach etwa einem Zehntel so vielen Ton–Belohnungs-Erfahrungen auf, aber nach etwa derselben verstrichenen Uhrzeit. Dieses Muster galt nicht nur für angenehme Belohnungen, sondern auch, wenn der Ton einen milden Schock vorhersagte—was darauf hindeutet, dass sowohl positives als auch negatives Lernen derselben zeitbasierten Regel folgt.

Eine neue Art, wie das Gehirn Ursache und Wirkung berechnet

Klassische Theorien stellen Lernen als einen trial-by-trial-Prozess dar, bei dem jede Erfahrung einen internen Wert um einen festen Bruchteil nach oben oder unten verschiebt. In diesen „durchgangsbasierten“ Modellen sollte mehr Paarung von Hinweis und Ergebnis in einem bestimmten Zeitraum immer das Lernen beschleunigen. Die neuen Ergebnisse widersprechen dieser Idee und stützen stattdessen ein anderes Rahmenmodell, genannt ANCCR, in dem das Gehirn seine Überzeugungen nur dann aktualisiert, wenn ein Ergebnis tatsächlich auftritt, und dann rückwärts in der Zeit arbeitet, um frühere Hinweise zu würdigen. Da diese Aktualisierungen bei jeder Belohnung ausgelöst werden, sagt das Modell voraus, dass die Änderung pro Belohnung in direktem Verhältnis dazu wächst, wie lange es seit der vorherigen Belohnung her ist. Das erklärt mathematisch, warum längere Abstände zwischen Belohnungen jede Erfahrung gewichtiger machen, während das Gesamterlernen nach einer festen Dauer unverändert bleibt.

„Übung macht den Meister“ neu denken

Indem gezeigt wird, dass die Dauer zwischen Belohnungen—nicht die bloße Anzahl der Durchgänge—sowohl die Verhaltens- als auch die dopaminerge Lernrate bestimmt, stellt diese Arbeit die weit verbreitete Annahme infrage, dass mehr Wiederholungen automatisch schnelleres Lernen bedeuten. Bei einfachen Assoziationen zwischen Signalen und Ergebnissen kann das Einbauen zusätzlicher Durchgänge nur wenig Nutzen bringen, wenn die Belohnungen zu dicht aufeinander folgen. Stattdessen ermöglicht gut getimtes Abstandhalten dem dopaminergen System des Gehirns, aus jedem Ergebnis größere, informativeren Aktualisierungen zu ziehen. Die Befunde legen nahe, dass wir unsere Modelle des Lernens im Gehirn überdenken sollten und dass in vielen Situationen intelligentes Timing der Erfahrungen ebenso wichtig oder wichtiger sein kann als häufigeres Üben.

Zitation: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

Schlüsselwörter: Dopamin, Belohnungslernen, Spacing-Effekt, assoziative Konditionierung, Verstärkungslernen