Clear Sky Science · pl
Historia niepewności i nagród wpływa odmiennie na decyzje po wygranych i porażkach
Dlaczego wygrane i przegrane nie uczą nas jednakowo
Codziennie podejmujemy decyzje w oparciu o przeszłe sukcesy i porażki — od wyboru akcji po drogę do pracy. Zarówno ludzie, jak i zwierzęta uczą się jednak znacznie bardziej na sukcesach niż na niepowodzeniach. Artykuł wyjaśnia, że ta nierównowaga to nie tylko ciekawostka, lecz adaptacyjna strategia ukształtowana przez sposób, w jaki mózg śledzi historię nagród i niepewność. Badając szczury w zmiennym, częściowo nieprzewidywalnym środowisku, badacze odkrywają ukryte reguły określające, kiedy wygrane mają większe znaczenie niż porażki — i jak te reguły różnią się między samcami a samicami.

Zmieniający się świat spragnionych szczurów
Aby zbadać te reguły, zespół szkolił szczury ograniczone dostępem do wody w zadaniu wyboru o zmiennej dynamice. W każdej próbie szczury inicjowały rundę, a następnie wybierały między dwoma dźwigniami. Jedna dźwignia miała większe prawdopodobieństwo podania kropli słodkiej wody, lecz która dźwignia była „lepsza” i o ile lepsza zmieniało się w blokach w trakcie sesji. Niektóre bloki czyniły lepszą dźwignię wyraźnie oczywistą (jedna strona płaciła najczęściej, druga niemal nigdy), podczas gdy inne bloki były bardziej mylące, z bliższymi lub nawet równymi szansami nagrody na obu dźwigniach. Ta ciągła zmiana odzwierciedla rzeczywistość, gdzie to, co działało wczoraj, może dziś być nieskuteczne.
Trzymanie się zwycięzców, ignorowanie niektórych porażek
W setkach sesji szczury częściej powtarzały wybór po wygranej („win-stay”) niż zmieniały go po przegranej („lose-shift”). Potwierdza to silne skłonności do uczenia się z sukcesów. Wzorzec był szczególnie wyraźny, gdy szczury miały czas w obrębie bloku, by rozpoznać, która dźwignia zwykle jest lepsza. W późniejszych próbach nie tylko częściej pozostawały po wygranych, lecz także rzadziej porzucały lepszą dźwignię po sporadycznej porażce. Strategia ta pomagała im dalej eksploatować bardziej nagradzającą opcję, zamiast dać się zmylić okazjonalnym złym wynikiem, który zdarza się nawet przy dobrym wyborze. U samców uprzedzenie to było silniejsze niż u samic: częściej pozostawali po wygranych i rzadziej przechodzili po przegranych.
Ukryte sygnały: niepewność i historia nagród
Aby zrozumieć niewidoczne obliczenia stojące za tym zachowaniem, autorzy zastosowali modele uczenia przez wzmacnianie — algorytmy komputerowe, które aktualizują oczekiwania na podstawie informacji zwrotnej. Skupili się na dwóch wewnętrznych sygnałach. Pierwszym była miara „historii niepewności”: średnia ostatnich poziomów zaskoczenia, odzwierciedlająca, jak nieprzewidywalne były wyniki. Gdy ta wartość była wysoka, środowisko było w praktyce bardziej zamglone. Drugim był „globalny stan nagród”, wygładzony opis tego, jak obfite lub skromne wydawały się ostatnie wyniki w ogóle. Razem te sygnały pozwalały szczurom oszacować zarówno, jak bardzo hałaśliwy jest świat, jak i jak dobrze im ostatnio szło, oraz dostosować, jak dużą wagę przypisywać najnowszej wygranej czy porażce.

Kiedy nieprzewidywalność i zasobność kształtują wybory
Oba wewnętrzne sygnały wpływały na zachowanie w odmienny i czasem specyficzny dla płci sposób. Szczury częściej pozostawały po wygranej i rzadziej porzucały lepszą dźwignię, gdy niepewność była niska — czyli gdy wzorzec środowiska był jaśniejszy. Przy wysokiej niepewności były bardziej skłonne odejść od dobrej dźwigni po porażce, co sugeruje, że mylące warunki mogą wywoływać ostrożniejsze zachowanie. Tymczasem wysoki globalny stan nagród, odzwierciedlający ogólnie dobre pasmo wyników, skłaniał szczury do dalszego pozostawania po wygranych i zmniejszał ich tendencję do zmiany po porażkach, nawet gdy środowisko było nieco hałaśliwe. Decyzje oparte na wygranej u samców były szczególnie kształtowane przez ich historię niepewności, podczas gdy samice polegały bardziej konsekwentnie na ogólnym stanie nagród.
Co to oznacza dla codziennych decyzji
Dla laika główne przesłanie brzmi: „uczenie się bardziej z wygranych niż z porażek” nie jest po prostu nadmiernym optymizmem. Badanie pokazuje, że szczury — i prawdopodobnie ludzie — dynamicznie dostrajają, ile uwagi przywiązują do wygranych i porażek, w zależności od tego, jak przewidywalny i jak nagradzający wydawał się ich świat ostatnio. Gdy reguły wydają się jasne, a nagrody obfite, ufanie wygranym i lekceważenie okazjonalnych niepowodzeń może być rozsądne. Gdy sytuacja wydaje się chaotyczna lub skromna, większe uwzględnianie porażek może pomóc uniknąć złych wyborów. Praca pokazuje również, że samce i samice mogą stosować te same zasady zadania, używając nieco innych wewnętrznych kombinacji historii niepewności i nagród — co może pomóc wyjaśnić różnice płci w podatności na choroby takie jak uzależnienia czy depresja, gdzie uczenie się z nagrody i kary jest zaburzone.
Cytowanie: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3
Słowa kluczowe: uczenie przez wzmacnianie, podejmowanie decyzji, niepewność, historia nagród, różnice płci