Clear Sky Science · de
Unsicherheit und Belohnungshistorien beeinflussen Entscheidungen nach Gewinnen und Verlusten unterschiedlich
Warum Gewinnen und Verlieren uns nicht gleichermaßen lehrt
Jeden Tag treffen wir Entscheidungen auf Basis früherer Gewinne und Verluste, sei es beim Aktienkauf oder bei der Wahl der Arbeitsstrecke. Menschen und Tiere lernen jedoch bekanntlich stärker aus Erfolgen als aus Misserfolgen. Dieser Artikel untersucht, warum dieses Ungleichgewicht nicht bloß eine Marotte ist, sondern eine adaptive Strategie, die davon geprägt wird, wie unser Gehirn Belohnungshistorie und Unsicherheit verfolgt. Anhand von Ratten, die sich in einer sich verändernden, teilweise unvorhersehbaren Umgebung behaupten müssen, decken die Forschenden verborgene Regeln auf, die bestimmen, wann Gewinne stärker zählen als Verluste — und wie diese Regeln bei Männchen und Weibchen differieren.

Eine wechselhafte Welt für durstige Ratten
Um diese Regeln zu erforschen, trainierte das Team wasserbeschränkte Ratten an einer dynamischen Entscheidungsaufgabe. In jeder Runde initiierten die Ratten einen Versuch und wählten dann zwischen zwei Hebeln. Ein Hebel hatte eine höhere Wahrscheinlichkeit, einen Tropfen zuckerhaltiges Wasser zu liefern, doch welcher Hebel „besser“ war und wie viel besser, änderte sich in verschiedenen Blöcken während der Sitzung. Manche Blöcke machten den besseren Hebel sehr offensichtlich (eine Seite zahlte meist, die andere fast nie), während andere Blöcke verwirrender waren, mit annähernd gleichen oder gleichen Belohnungswahrscheinlichkeiten an beiden Hebeln. Dieses ständig wechselnde Setting spiegelt das echte Leben wider, in dem das Gestern nicht notwendigerweise für das Heute gilt.
Bei Gewinnern bleiben, einige Verluste ignorieren
Über Hunderte von Sitzungen tendierten die Ratten dazu, eine Wahl nach einem Gewinn häufiger zu wiederholen („win-stay“) als nach einem Verlust zu wechseln („lose-shift“). Das bestätigt eine starke Neigung, aus Erfolgen mehr zu lernen. Dieses Muster zeigte sich besonders deutlich, sobald die Ratten innerhalb eines Blocks Zeit hatten herauszufinden, welcher Hebel üblicherweise besser war. In diesen späteren Versuchen blieben sie nicht nur nach Gewinnen häufiger bei ihrer Wahl, sondern waren auch weniger geneigt, den besseren Hebel nach einem seltenen Verlust aufzugeben. Diese Strategie half ihnen, die lohnendere Option weiter auszunutzen, anstatt sich von gelegentlichen schlechten Ergebnissen täuschen zu lassen, die selbst bei einer guten Wahl vorkommen können. Männliche Ratten zeigten diese Voreingenommenheit stärker als weibliche: Sie blieben nach Gewinnen eher und wechselten nach Verlusten seltener.
Verborgene Signale: Unsicherheit und Belohnungshistorie
Um die unsichtbaren Kalküle hinter diesem Verhalten zu verstehen, nutzten die Autorinnen und Autoren Verstärkungslernmodelle — Computeralgorithmen, die Erwartungen anhand von Feedback aktualisieren. Sie konzentrierten sich auf zwei interne Signale. Das erste war ein Maß der „Unsicherheitshistorie“: ein Durchschnitt jüngster Überraschungswerte, der erfasst, wie unvorhersehbar die Ergebnisse gewesen waren. War dieser Wert hoch, war die Umwelt effektiv unklarer. Das zweite war ein „globaler Belohnungszustand“, eine geglättete Zusammenfassung, wie reich oder arm die jüngste Umgebung insgesamt empfunden wurde. Zusammen ermöglichten diese Signale den Ratten, sowohl einzuschätzen, wie laut die Welt war (wie viele zufällige Ereignisse es gab), als auch wie gut die Dinge zuletzt liefen, und entsprechend zu justieren, wie viel Gewicht dem letzten Gewinn oder Verlust beigemessen wird.

Wenn Unvorhersehbarkeit und Wohlstand Entscheidungen formen
Die beiden internen Signale beeinflussten das Verhalten auf unterschiedliche und teils geschlechtsspezifische Weise. Ratten blieben nach einem Gewinn eher dabei und gaben den besseren Hebel seltener auf, wenn die Unsicherheit niedrig war — also wenn das Muster in der Umgebung klarer war. Bei hoher Unsicherheit waren sie anfälliger dafür, nach einem Verlust von einem guten Hebel abzuweichen, was darauf hindeutet, dass verwirrende Bedingungen zu vorsichtigerem Verhalten führen können. Ein hoher globaler Belohnungszustand, der eine generell gute Serie von Ergebnissen widerspiegelt, förderte hingegen, nach Gewinnen weiter zu bleiben, und verringerte die Neigung, nach Verlusten zu wechseln, selbst wenn die Umgebung etwas laut war. Die Gewinn-basierten Entscheidungen der Männchen wurden besonders stark von ihrer Unsicherheitshistorie geprägt, während Weibchen konstanter auf den allgemeinen Belohnungszustand setzten.
Was das für alltägliche Entscheidungen bedeutet
Für Laien lautet die Kernbotschaft, dass „mehr aus Gewinnen als aus Verlusten lernen“ nicht einfach übermäßiger Optimismus ist. Die Studie zeigt, dass Ratten — und vermutlich Menschen — dynamisch anpassen, wie stark sie auf Gewinne und Verluste hören, abhängig davon, wie vorhersehbar und wie belohnend ihre Welt in letzter Zeit erschien. Wenn die Regeln klar scheinen und Belohnungen reichlich sind, kann es klug sein, Gewinnen zu vertrauen und gelegentliche Misserfolge abzuwerten. Wenn die Lage chaotisch oder mager wirkt, kann es hingegen helfen, Verlusten mehr Gewicht zu geben, um schlechte Entscheidungen zu vermeiden. Die Arbeit zeigt auch, dass Männchen und Weibchen zwar denselben Aufgabenregeln folgen können, dies aber mit leicht unterschiedlichen inneren Gewichtungen von Unsicherheit und Belohnungshistorie tun — ein Hinweis, der helfen könnte, Geschlechtsunterschiede in der Anfälligkeit für Erkrankungen wie Sucht oder Depression zu erklären, bei denen das Lernen aus Belohnung und Bestrafung gestört ist.
Zitation: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3
Schlüsselwörter: verstärkendes Lernen, Entscheidungsfindung, Unsicherheit, Belohnungshistorie, Geschlechtsunterschiede