Clear Sky Science · ru

Неопределённость и история наград по-разному влияют на решения после побед и поражений

· Назад к списку

Почему победы и поражения учат нас по-разному

Каждый день мы принимаем решения, опираясь на прошлые победы и поражения — от выбора акции до маршрута на работу. Однако известно, что люди и животные учатся сильнее на успехе, чем на неудаче. В этой статье исследуется, почему такое смещение — не просто странность, а адаптивная стратегия, сформированная тем, как наш мозг отслеживает историю наград и неопределённость. Изучая крыс в меняющейся, частично непредсказуемой среде, авторы выявляют скрытые правила, определяющие, когда победы важнее поражений — и как эти правила различаются у самцов и самок.

Figure 1
Figure 1.

Мир в изменении для жаждущих крыс

Чтобы изучить эти правила, команда обучала крыс с ограниченным доступом к воде выполнению динамической задачи выбора. В каждом испытании крысы запускали раунд и затем выбирали между двумя рычагами. Один рычаг с большей вероятностью давал каплю подслащённой воды, но то, какой рычаг был «лучше» и насколько лучше, менялось блоками в течение сессии. В одних блоках превосходство одного рычага было очевидно (одна сторона чаще вознаграждала, другая почти никогда), в других блоках ситуация была более запутанной, с близкими или даже равными шансами на награду для обоих рычагов. Эта постоянно меняющаяся схема имитирует реальную жизнь, где то, что работало вчера, может не сработать сегодня.

Привязанность к победам, равнодушие к некоторым поражениям

В ходе сотен сессий крысы чаще повторяли выбор после победы («оставались после выигрыша»), чем переключались после поражения («переключались после потери»). Это подтвердило сильное предпочтение учиться на успехах. Шаблон был особенно выражен после того, как крысы успевали в пределах блока выяснить, какой рычаг обычно лучше. На этих более поздних испытаниях они не только чаще оставались после выигрышей, но и реже отказывались от лучшего рычага после редкого поражения. Такая стратегия помогала им продолжать использовать более выгодный вариант, а не сбиваться с пути из‑за случайного плохого результата, который может случиться даже при хорошем выборе. Самцы проявляли это смещение сильнее, чем самки: они чаще оставались после побед и реже переключались после поражений.

Скрытые сигналы: неопределённость и история наград

Чтобы понять невидимые вычисления, стоящие за этим поведением, авторы использовали модели обучения с подкреплением — алгоритмы, которые обновляют ожидания на основе обратной связи. Они сосредоточились на двух внутренних сигналах. Первый — «история неопределённости»: усреднение недавних уровней удивления, отражающее, насколько непредсказуемыми были исходы. Когда этот показатель был высоким, среда фактически становилась более мутной. Второй — «глобальное состояние наград», сглаженное резюме того, насколько в целом богатыми или бедными казались недавние исходы. Вместе эти сигналы позволяли крысам оценивать и шумность окружающего мира, и то, насколько хорошо шли дела в последнее время, и соответственно регулировать, сколько веса придавать последней победе или поражению.

Figure 2
Figure 2.

Когда непредсказуемость и изобилие формируют выбор

Два внутренних сигнала влияли на поведение по-разному и иногда по‑своему в зависимости от пола. Крысы с большей вероятностью оставались после выигрыша и реже отказывались от лучшего рычага, когда неопределённость была низкой — то есть когда паттерн среды был яснее. При высокой неопределённости они чаще переключались с хорошего рычага после поражения, что указывает на то, что запутанные условия могут вызывать более осторожное поведение. Между тем высокое глобальное состояние наград, отражающее в целом хорошую полосу исходов, поощряло крыc продолжать оставаться после побед и снижало склонность к переключению после поражений, даже когда среда была относительно шумной. Решения самцов, основанные на победах, особенно зависели от их истории неопределённости, тогда как самки более последовательно опирались на общее состояние наград.

Что это значит для повседневных решений

Для неспециалиста основной вывод заключается в том, что «учиться больше на победах, чем на поражениях» — это не просто чрезмерный оптимизм. Исследование показывает, что крысы — и, вероятно, люди — динамически настраивают, насколько прислушиваться к победам и поражениям, исходя из того, насколько предсказуемым и насколько вознаграждающим казался их мир в последнее время. Когда правила кажутся ясными и награды обильны, доверять победам и игнорировать случайные неудачи может быть разумно. Когда ситуация кажется хаотичной или скудной, придавать большее значение поражениям помогает избегать плохих выборов. Работа также показывает, что самцы и самки могут следовать тем же правилам задачи, используя немного разные внутренние соотношения сигналов неопределённости и истории наград — это даёт понимание возможных причин половых различий в уязвимости к состояниям вроде зависимости или депрессии, где обучение на вознаграждении и наказании нарушено.

Цитирование: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3

Ключевые слова: обучение с подкреплением, принятие решений, неопределённость, история наград, половые различия