Clear Sky Science · zh

不确定性和奖励历史在胜负后对决策有不同影响

· 返回目录

为什么胜利和失败不会同等教会我们东西

我们每天都根据过去的胜负做出选择,从挑选股票到决定上班路线。然而,人类和动物普遍更善于从成功中学习,而不是从失败中吸取教训。本文探讨了这种不平衡为何不仅仅是个怪癖,而是一种适应性策略,受我们大脑如何追踪奖励历史和不确定性的影响。通过在一个不断变化且部分不可预测的环境中研究大鼠,研究者揭示了决定何时胜利比失败更重要的隐含规则——以及这些规则在雄性和雌性之间如何不同。

Figure 1
Figure 1.

为口渴的大鼠设置的变动世界

为了探究这些规则,研究团队在一个动态选择任务上训练了受限饮水的大鼠。在每个回合,老鼠发起一轮,然后在两个杠杆之间做选择。一个杠杆更可能给出一滴甜水,但哪个杠杆“更好”以及它好到何种程度会在整场实验中按区块不断变化。有些区块使得较优杠杆非常明显(一侧大多数时候有回报,另一侧几乎没有),而另一些区块则更具混淆性,两侧获得奖励的概率更接近甚至相等。这个不断变化的设置模拟了现实生活:昨天奏效的办法今天可能行不通。

坚持赢家,对某些失败一笑置之

在数百次实验中,大鼠在获胜后重复选择(“胜则继续”)的概率高于在失败后转变选择(“败则转变”)的概率。这验证了从成功中学习的强烈倾向。当老鼠在一个区块内有时间弄清通常哪个杠杆更好时,这种模式尤为明显。在这些后期试验中,它们不仅在获胜后更倾向于保持原选择,而且在遭遇罕见失败时也不太可能放弃更优杠杆。这一策略帮助它们继续利用更有回报的选项,而不会被偶发的不良结果误导,这种不良结果即便是在做出正确选择时也可能发生。雄性比雌性表现出更强的这种偏向:雄性在胜利后更可能保持选择,在失败后更不易转变。

隐藏信号:不确定性与奖励历史

为理解驱动这些行为的隐性计算,作者使用了强化学习模型——基于反馈更新期望的计算算法。他们关注两个内部信号。第一个是“不确定性历史”度量:最近惊讶程度的平均值,反映结果有多不可预测。当这个数值高时,环境实际上更为模糊。第二个是“整体奖励状态”,即对近期环境总体富裕或贫乏程度的平滑汇总。结合这两个信号,老鼠可以估计世界有多嘈杂以及最近状况如何,并据此调整对最新胜利或失败的重视程度。

Figure 2
Figure 2.

当不可预测性与丰裕感塑造选择时

这两个内部信号以不同且有时与性别相关的方式影响行为。环境不确定性低时——也就是模式更清晰时——老鼠更可能在获胜后保持选择,也不太会在遭遇失败后放弃更优杠杆。在高不确定性下,它们更容易在一次失败后从良好的杠杆转向,表明混乱的条件会触发更谨慎的行为。与此同时,较高的整体奖励状态(反映一段时间内总体较好的结果)会鼓励老鼠在获胜后继续保持选择,并减少它们在失败后转变的倾向,即便环境有些嘈杂。雄性的胜利驱动决策尤其受其不确定性历史的影响,而雌性则更持续地依赖整体奖励状态。

这对日常决策意味着什么

对普通读者而言,核心信息是“比起失败更从胜利中学习”并非单纯的过度乐观。研究表明,老鼠——很可能还有人类——会根据最近世界的可预测性和回报丰裕程度动态调整对胜负的听取程度。当规则看起来清晰且奖励丰厚时,信任胜利并忽视偶发失败可能是明智的。当情况混乱或回报稀少时,更重视失败有助于避免糟糕选择。该研究还表明,雄性和雌性可以在遵循相同任务规则的同时,依赖不确定性与奖励历史的内部权衡略有不同,这一见解或有助于解释在成瘾或抑郁等对奖惩学习失常的疾病中观察到的性别差异。

引用: Kalhan, S., Magnard, R., Zhang, Z. et al. Uncertainty and reward histories have distinct effects on decisions after wins and losses. Sci Rep 16, 6795 (2026). https://doi.org/10.1038/s41598-026-37554-3

关键词: 强化学习, 决策, 不确定性, 奖励历史, 性别差异