Clear Sky Science · zh

在初始惩罚学习期间腹侧被盖区去抑制导致持久的惩罚不敏感

2026-02-17 · 返回目录

为什么我们有时会忽视不良后果

大多数人很快学会停止带来痛苦或麻烦的行为。但有些人——以及许多动物——即便代价高昂仍继续追逐奖励，比如在成瘾或冒险决策中。本研究探究在我们首次意识到某个行为会带来痛苦后，大脑中这一关键奖赏中枢内部发生了什么，以及扰乱这一过程如何在危险明晰很久之后仍使我们顽固地对惩罚保持不敏感。

权衡奖励与伤害的大脑枢纽

在中脑深处有一处名为腹侧被盖区的小区域，其释放多巴胺的细胞发出强有力的“教学信号”，传达关于奖励的信息。当结果好于预期时，这些神经元会发生爆发性放电；当结果更差时则变得安静。它们被使用神经抑制递质GABA的抑制性细胞包围，后者可短暂压制多巴胺输出。传统理论认为这种抑制有助于动物学习避免有害行为。但研究者并不清楚在惩罚期间该区域中GABA和多巴胺信号的具体表现，也不确定对多巴胺细胞的短暂沉默是否真的是学习避险所必需的。

实时观察惩罚信号

作者训练大鼠按压两个杠杆以获得食物。随后，对其中一杠杆的按压还会触发轻度电击，使该行为变为受惩罚的选择，而另一个杠杆保持安全。研究团队利用光纤记录工具，测量动物在经历电击与奖励并决定按哪个杠杆时多巴胺细胞的活动及其所接收的GABA输入。食物或电击发生时，多巴胺活动和GABA输入都出现短暂的峰值。多巴胺细胞对食物的反应更强，而GABA输入在首次惩罚会话中对电击尤其强烈，随后随经验逐渐减弱。在行为发生的时间窗内，活动模式发生了变化：对受惩罚杠杆的按压逐渐引发不同的多巴胺爆发，而安全杠杆则没有。这些模式暗示，在首次遭遇惩罚时由GABA驱动的抑制激增可能是一个关键的教学信号。

在关键窗口阻断抑制

为检验这一想法，研究者接着干预了GABA在腹侧被盖区抑制细胞的能力。在一组大鼠中，他们在最初两次惩罚会话期间直接向该区域注入阻断GABA A受体的药物。在另一组中，他们使用设计受体技术在人为上激活多巴胺神经元，在相同期早期会话中产生类似效应。在这两种情况下，即时后果是这些大鼠在受惩罚杠杆上的按压减少得不如对照动物，因此收到更多电击。显著的是，一旦这一早期窗口过去，恢复正常脑化学并没有修复问题：即使在之后无药物的日子里，这些大鼠仍然更频繁地按受惩罚杠杆，并且在按压前犹豫更少。

对危险估值的持久改变

当惩罚学习已经建立稳固时，暂时阻断抑制或激活多巴胺细胞不再产生相同的持久损害。此后期干预可以改变总体活动水平，例如使动物更活跃或不那么活跃，但并未抹去它们避免受惩罚杠杆的既有倾向。额外测试显示，这种处理并非简单地使奖励总体上更具吸引力；未受惩罚的取食行为并未持续性增加。相反，干扰似乎具体破坏了大脑在首次遭遇时将特定行为与其痛苦后果联系起来的过程，使动物对该危险产生长期的盲区。

对现实世界冒险选择的意义

对普通读者而言，结论是：在我们首次体验某个选择会带来有害后果之时，存在一个短暂但强大的学习窗口，在此期间大脑奖赏枢纽的精确抑制教会我们退缩。如果该抑制信号被削弱而多巴胺活动持续偏高，大脑可能无法正确记录危险，从而产生一种持久的倾向，继续做出有害的冒险选择。由于许多致瘾物质会增强多巴胺或减少其抑制，这些发现提出了这样一种可能性：此类物质可能促使大脑形成持续对惩罚不敏感的习惯——并暗示保护或恢复这一早期教学信号可能是帮助人们重新学习避免有害行为的关键。

引用: Tan, S.Y.S., Shen, M.H., Keevers, L.J. et al. Disinhibition of ventral tegmental area during initial punishment learning causes enduring punishment insensitivity. Neuropsychopharmacol. 51, 1045–1055 (2026). https://doi.org/10.1038/s41386-026-02368-4

关键词: 多巴胺, 惩罚学习, 腹侧被盖区, 成瘾, 冒险决策