Clear Sky Science · nl
Onzekerheid en beloningsgeschiedenis hebben verschillende effecten op beslissingen na winst en verlies
Waarom winst en verlies ons niet evenveel leren
Elke dag nemen we beslissingen op basis van eerdere winst en verlies, van het kiezen van een aandeel tot het bepalen van een route naar het werk. Toch leren mensen en dieren vaak meer van succes dan van falen. Dit artikel onderzoekt waarom die ongelijkheid niet slechts een eigenaardigheid is, maar een adaptieve strategie die gevormd wordt door hoe onze hersenen beloningsgeschiedenis en onzekerheid bijhouden. Door ratten te bestuderen in een veranderende, deels onvoorspelbare omgeving, onthullen de onderzoekers verborgen regels die bepalen wanneer winst belangrijker is dan verlies — en hoe die regels verschillen tussen mannetjes en vrouwtjes.

Een veranderende wereld voor dorstige ratten
Om deze regels te onderzoeken, trainde het team waterbeperkte ratten op een dynamische keuzetaak. In elke trial startten de ratten een ronde en kozen ze tussen twee hendels. De ene hendel leverde vaker een druppel suikerwater op, maar welke hendel “beter” was en hoeveel beter bleef gedurende de sessie in blokken veranderen. Sommige blokken maakten de betere hendel heel duidelijk (de ene kant betaalde meestal uit, de andere bijna nooit), terwijl andere blokken verwarrender waren, met kleinere of zelfs gelijke kansen op beloning voor beide hendels. Deze voortdurend verschuivende opzet bootst het echte leven na, waar wat gisteren werkte, vandaag niet per se werkt.
Vasthouden aan winnaars, sommige verliezen negeren
Over honderden sessies neigden ratten er vaker toe een keuze te herhalen na een winst (“win-stay”) dan te wisselen na een verlies (“lose-shift”). Dit bevestigde een sterke voorkeur om van succes te leren. Het patroon werd vooral duidelijk zodra ratten binnen een blok de tijd hadden om uit te zoeken welke hendel gewoonlijk beter was. In deze latere trials bleven ze niet alleen vaker na winsten, maar waren ze ook minder geneigd de betere hendel te verlaten na een zeldzaam verlies. Deze strategie hielp hen de meer belonende optie te blijven exploiteren in plaats van misleid te worden door het occasionele slechte resultaat dat zelfs bij een goede keuze kan optreden. Mannetjes lieten deze bias sterker zien dan vrouwtjes: zij bleven vaker na winsten en wisselden minder vaak na verliezen.
Verborgen signalen: onzekerheid en beloningsgeschiedenis
Om de onzichtbare berekeningen achter dit gedrag te begrijpen, gebruikten de auteurs versterkende leermodelen — computeralgoritmen die verwachtingen bijwerken op basis van feedback. Ze concentreerden zich op twee interne signalen. Het eerste was een “onzekerheidsgeschiedenis”-maat: een gemiddelde van recente verrassingsniveaus, dat vastlegt hoe onvoorspelbaar uitkomsten zijn geweest. Als dit cijfer hoog was, was de omgeving feitelijk troebeler. Het tweede was een “globale beloningsstaat”, een uitgevlakt overzicht van hoe rijk of arm de recente omgeving in het algemeen aanvoelde. Samen stelden deze signalen ratten in staat zowel in te schatten hoe lawaaierig de wereld was als hoe goed het de laatste tijd ging, en om aan te passen hoeveel gewicht ze aan de meest recente winst of verlies gaven.

Wanneer onvoorspelbaarheid en overvloed keuzes vormen
De twee interne signalen beïnvloedden gedrag op verschillende en soms sekse-specifieke manieren. Ratten waren eerder geneigd te blijven na een winst en minder snel de betere hendel te verlaten wanneer de onzekerheid laag was — dat wil zeggen wanneer het patroon in de omgeving duidelijker was. Onder hoge onzekerheid waren ze eerder geneigd weg te schakelen van een goede hendel na een verlies, wat suggereert dat verwarrende omstandigheden voorzichtiger gedrag kunnen triggeren. Tegelijkertijd stimuleerde een hoge globale beloningsstaat, die een over het algemeen goede reeks uitkomsten weerspiegelt, ratten om vaker bij winsten te blijven en verminderde hun neiging om na verliezen te wisselen, zelfs wanneer de omgeving enigszins rumoerig was. De winstgebaseerde beslissingen van mannetjes werden vooral gevormd door hun onzekerheidsgeschiedenis, terwijl vrouwtjes consistenter vertrouwden op de algemene beloningsstaat.
Wat dit betekent voor dagelijkse beslissingen
Voor een leek is de kernboodschap dat “meer leren van winsten dan van verliezen” niet eenvoudigweg overmatig optimisme is. De studie toont aan dat ratten — en waarschijnlijk mensen — dynamisch bijstellen hoeveel ze luisteren naar winsten en verliezen op basis van hoe voorspelbaar en hoe belonend hun wereld de laatste tijd heeft gevoeld. Wanneer de regels duidelijk lijken en beloningen overvloedig zijn, kan het slim zijn winsten te vertrouwen en incidentele mislukkingen te negeren. Wanneer dingen chaotisch of karig aanvoelen, kan het meer gewicht geven aan verliezen helpen slechte keuzes te vermijden. Het werk laat ook zien dat mannetjes en vrouwtjes dezelfde taakregels kunnen volgen met iets verschillende interne wegingen van onzekerheid en beloningsgeschiedenis, een inzicht dat kan helpen sekseverschillen te verklaren in vatbaarheid voor aandoeningen zoals verslaving of depressie, waarbij leren van beloning en straf verstoord raakt.
Bronvermelding: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3
Trefwoorden: versterkend leren, besluitvorming, onzekerheid, beloningsgeschiedenis, sekseverschillen