Clear Sky Science · zh
奖励间隔控制行为与多巴胺学习速率
为什么奖励的节奏很重要
老师告诫不要临时抱佛脚,动物训练师也会把零食分散发放——但为何休息反而有助于学习?这项研究提出了一个看似简单却影响深远的问题:当你试图学会某个信号预示奖励时,是连续获得大量快速奖励更有帮助,还是少量但间隔更久的奖励更有效?研究者通过精确控制小鼠的糖水滴落时间并同时测量其行为与脑内化学变化,发现了一条数学规律:控制学习速度的并非试验次数本身,而是奖励之间的时间间隔。

更少但间隔更好的奖励也能学得一样
研究团队训练口渴且头部固定的小鼠,让它们把短促的声响与一小口甜液体联系起来。所有小鼠听到相同的提示音,并在稍后得到相同的奖励,但下一次提示音和奖励出现之间的间隔差别很大——从半分钟到十分钟不等,某一组甚至间隔一小时。间隔短的小鼠每天经历许多次提示—奖励配对,而间隔长的小鼠每天只有几次。直觉上,人们可能认为“繁忙”的日程会产生更快的学习。但结果恰好相反:当间隔延长十倍时,小鼠只需要大约十分之一的提示—奖励经历就能学会关联。
无论试验多少,学会所需的真实时间相同
尽管间隔较长的小鼠经历次数远少,但它们在实际时间上并没有更快学会。当研究者计算每只小鼠在开始可靠地为奖励舔舐之前经历了多少分钟的条件训练时,跨越间隔差异达20倍的不同组别,其学会所需的总时间几乎相同。换言之,拉长奖励之间的间隔使得每一次体验对学习的影响按等待时间成比例地增强。从密集训练中去掉十分之九的试次,基本不会影响关联形成所需的时间,只要训练环境中的总历时时间保持不变。
多巴胺信号遵循相同规律
为探查大脑内部发生了什么,科学家们使用荧光传感器追踪多巴胺,这种化学信使长期以来被认为反映奖励预测误差,即期待与实际奖励之间的差异。随着训练进展,短促的多巴胺峰值逐渐从奖励本身转移到提示音上。关键在于,这些多巴胺反应与行为遵循相同的时间规则:当奖励间隔拉长十倍时,对提示音的多巴胺反应出现在大约十分之一的提示—奖励经历之后,但出现在大约相同的实际时钟时间点。该模式不仅适用于令人愉快的奖励,当提示音预示轻微电击时也同样成立,表明正向与负向学习都遵循相同的基于时间的规则。

大脑计算因果关系的新方式
经典理论将学习描绘为逐次试验的过程,每次体验按某个固定比例将内部价值向上或向下推动。在这些“基于试验”的模型中,在一定时间内看到更多的提示—结果配对应该总是加速学习。新结果与这一观点相悖,而支持另一种框架,称为ANCCR,在该框架中大脑仅在结果实际发生时更新其信念,然后向前追溯为先前的提示赋予功劳。因为这些更新是在每次奖励时触发,模型预测每次奖励带来的改变应与自上一次奖励以来的时间成正比。这在数学上解释了为何更长的奖励间隔会使每次体验更有分量,同时在固定持续时间后总体学习量保持不变。
重新思考“熟能生巧”
这项工作表明,控制行为和多巴胺学习速率的是奖励之间的持续时间,而不是简单的试验次数,从而挑战了“重复越多就学得越快”的普遍假设。对于信号与结果之间的简单联想来说,如果奖励出现得过于密集,堆砌额外试次可能收效甚微。相反,恰当的时间间隔可以使大脑的多巴胺系统从每次结果中做出更大、更有信息量的更新。研究结果要求我们重新评估大脑中学习的建模方式,并暗示在许多情况下,比起更频繁的练习,更聪明地安排体验的间隔可能同样重要甚至更重要。
引用: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2
关键词: 多巴胺, 奖励学习, 间隔效应, 联想条件作用, 强化学习