Clear Sky Science · zh

在强化学习中自身与他人经历对情景记忆的共同影响

2026-02-28 · 返回目录

为什么观察和亲自行动对记忆都很重要

日常生活中，我们既从自己的选择中学习——比如尝试一条新的上班路线——也从观察他人的遭遇中学习——比如看到朋友因超速而被罚。该研究提出了一个看似简单的问题：在形成生动记忆时，我们亲自采取行动与仅仅观察别人，究竟有多大区别？在奖励过程中，大脑内部的“惊讶”信号是否以相同方式将行动、观察与记忆联系起来？

在胜负游戏中承担风险

研究者邀请年轻成年人玩一款电脑游戏，该游戏混合了两种试次。在一些试次中，参与者决定是“赌博”以争取积分还是保守行事；在另一些试次中，他们只是观看一名所谓的其他玩家（实际上是电脑模型）做出相同选择。每个试次都展示了可能的奖励大小，随后出现一张独特的物体或动物图片，这张图片暗示了获胜的机会。随后，在没有预告的情况下，参与者进行记忆测试：他们看到所有旧图片以及相似的新图片，必须判断每张是旧的还是新的，并说明他们有多大信心。

亲自参与更让记忆难忘

当团队比较人们区分旧图与新图的能力时，无论是通过亲自行动还是通过观察学习，表现都明显高于随机水平。换言之，仅仅参与任务——无论是行动还是观察——就足以形成相当准确的记忆。然而有个转折：参与者对来自他们亲自决策试次的图片记忆更有信心。即便客观准确率相近，与自己选择相关的记忆也感觉更强烈、更生动，而观察他人时形成的记忆则不那么鲜明。

冒险选择与奖励惊讶促进记忆

研究的另一层面聚焦于风险和奖励如何影响记忆。在亲自行动和观察两种条件中，那些在选择赌博的试次中呈现的图片被记得更好，而来自保守“放弃”试次的图片记忆较差。作者还考察了所谓的奖励预测误差——追踪我们预期收益与实际可能获得之间差距的内部信号。当一张图片表明比预期更高的获奖机会且选择了赌博时，该图片随后的记忆被增强，无论该选择是由参与者本身还是被观察的玩家做出。值得注意的是，极小或极大的潜在奖励往往削弱记忆，可能是因为人们仅凭奖励数字就决定赌博或放弃，从而对图片投入较少注意。

观察他人也能激活相同的学习引擎

通过将计算学习模型拟合到选择数据，研究者发现参与者在行动和观察两种情形下以相似方式更新对奖励概率的信念。由惊讶和不确定性驱动的信号帮助调整他们从新结果中学习的速度。重要的是，在图片呈现时积极的奖励惊讶与随后记忆之间的有益联系，在两种学习模式中都出现。游戏还在许多志愿者中激发了竞争情绪——他们在看到对方输时比对方赢时更高兴——而这种竞争心态与自我参与条件下记忆略强有关，表明动机和社会比较可以选择性地增强我们自身经历的记忆。

这对日常学习意味着什么

对普通人来说，主要信息是：当我们从自己的行为或通过观察他人学习时，记忆系统都会使用相似的内部“惊讶”信号，尤其在涉及风险与奖励的情境中。观察性学习可以植入稳固的记忆，但亲自行动往往会让这些记忆感觉更确定、更具个人归属感。在课堂、工作场所和社交场合中，这意味着将主动决策与观察他人的机会相结合——并确保重要信息恰在结果存在不确定且可能好于预期时出现——可能是让经历真正留存在记忆中的有效策略。

引用: Woitow, M.A., Jang, A.I., Eppinger, B. et al. Shared effects of one’s own and others’ experiences during reinforcement learning on episodic memory. npj Sci. Learn. 11, 16 (2026). https://doi.org/10.1038/s41539-026-00409-7

关键词: 观察性学习, 奖励预测误差, 情景记忆, 冒险行为, 决策