Clear Sky Science · zh
皮质树突中的向量化教导信号
大脑如何从自身神经元中学习
现代人工智能通过精细调整数百万个微小连接来学习,使网络中的每个神经元获得专属的教学信号。长期以来,神经科学家一直在思考生物大脑是否拥有类似的机制,能在学习过程中告诉单个神经元如何改变。这项研究表明答案是肯定的:小鼠似乎在其神经细胞的细长树枝中使用特定信号来指导学习,提供了对机器学习核心思想的生物学对应。

将想法变成动态画面
为了让学习过程可见,研究人员为小鼠构建了一个脑–机接口。当小鼠在小跑步机上奔跑时,显微镜观察其参与导航与记忆的脑区。科学家选择了该区域中的两个微小神经元群,并将它们的活动与屏幕上漂移的条纹图案关联起来。当一组神经元的活动强于另一组时,图案会朝特定的“目标”方向旋转,且小鼠获得甜食奖励。通过这种方式,实验者定义了一个精确规则,将每个神经元的活动与成功或失败联系起来。
两个群体,截然相反的作用
这两组神经元交错分布在同一片皮质中,但它们对刺激的影响相反:一组将图案推向带来奖励的角度,另一组则把它推开。经过大约两周的训练,小鼠学会了每分钟获得更多奖励,并在更多试次中取得成功。与此同时,“有帮助”的神经元倾向于持续强烈放电,而“无助”的神经元则逐渐减少放电。这种变化并非简单反映整体唤醒水平或奔跑速度的改变;相反,它与每个神经元活动对任务表现的影响相匹配,暗示大脑在解决一种精细的信用分配问题。
监听神经元的隐蔽末端
关键在于,团队不仅观察这些神经元的细胞体,还观察了它们那类树状的长分支——顶端树突。这些分支位于更靠近脑表面的区域,接收与细胞体不同的输入。通过在深层与浅层成像平面之间快速切换焦点,研究者记录了同一神经元两个部位的活动。他们发现,当神经元放电时,树突中的信号强度可能比细胞体的信号大或小,这些不匹配在一定程度上可由附近神经元的活动模式预测。这意味着树突并非被动地重复细胞体的信号;它们正从周围网络接收独特的信息。

树突携带奖励与误差信号
下一个问题是这些树突信号意味着什么。通过分析事件相对于奖励发放和试次结果的时序,作者展示了跨越许多神经元的树突放大模式可以区分有奖励与无奖励的试次,以及成功与失败的尝试,甚至在结果出现之前就能预测。换言之,树突信号携带关于奖励和正在进行的任务误差的信息,原则上可以作为教学信号。引人注意的是,这些信号的符号依赖于神经元的因果角色:那些有助于减少误差的神经元的树突在误差减小时会被增强,而将图案推向错误方向的神经元的树突则在误差增加时被增强。这种“向量化”的模式类似于人工网络向不同单元发送不同误差信息的方式。
关闭教学通道
为了测试这些树突模式是否对学习重要,研究者使用光敏蛋白激活一类位于皮质最外层并针对顶端树突的抑制性细胞。开启这些抑制细胞会强烈削弱树突相对于细胞体的信号不匹配。在这种条件下,树突群体不再可靠地传达奖励或试次结果信息,小鼠在脑–机任务上无法取得进步,尽管基本设置没有改变。麻醉状态下也观察到类似效应——在麻醉时自上而下的输入已知会被抑制——进一步支持这些树突信号依赖于专门的反馈通路的观点。
这对理解学习意味着什么
综合来看,研究结果表明,大脑在单个神经元内使用独立的电学隔室来传递教学信号,类似于人工网络将误差信号定向到特定单元的方式。皮质神经元的顶端树突似乎携带关于奖励与误差变化的神经元特异性信息,干扰这个通道会阻碍学习。对非专业读者而言,关键观点是大脑的学习可能不仅取决于哪些神经元活跃,还取决于它们隐蔽分支如何整合来自网络其余部分的反馈——为现代机器学习背后的一些核心思想提供了生物学蓝图。
引用: Francioni, V., Tang, V.D., Toloza, E.H.S. et al. Vectorized instructive signals in cortical dendrites. Nature 652, 1254–1263 (2026). https://doi.org/10.1038/s41586-026-10190-7
关键词: 树突计算, 信用分配, 脑–机接口, 皮质学习, 神经反馈