Clear Sky Science · zh

新型内赫布突触以加速类脑硬件的在线训练

2026-02-18 · 返回目录

教芯片从经验中学习

现代人工智能功能强大，但仍难以媲美大脑在稀疏、延迟反馈下学习的能力——比如记住哪条市区捷径真正省时。本文提出了一种新型人工“突触”（人工神经元之间的连接），让类脑芯片能够以更接近大脑的在线方式学习，同时保持紧凑和能效。对关注未来 AI 硬件的读者来说，文章展示了如何将热量本身转化为在微小存储器件内用于学习的有用信号。

为什么类脑芯片需要更好的突触

类脑计算旨在模拟大脑处理信息的方式：使用脉冲神经网络，其中短促的电脉冲通过庞大的突触网络传递。现有硬件已经可以用忆阻器件（如 ReRAM）实现突触，其电导可调以存储权重。然而，简单的“赫布式”学习规则——仅依据局部脉冲时序使突触加强或减弱——在需要关联时间上相隔的事件的实际任务上表现欠佳，例如理解语音或解决导航问题。标准的深度学习方法通过时序反向传播（backpropagation through time）来解决这类问题，但该方法对内存与功耗要求过高，不适合类脑硬件。因此社区转向“三因子”学习规则和诸如 eligibility propagation（e-prop）之类的算法，这些方法在每个突触处引入一个额外的局部记忆痕迹，以便延迟到达的全局奖励信号仍能调整恰当的连接。

在热中存储衰减记忆

这项工作的核心思想是“新内赫布”（neoHebbian）突触，它具有两个内部状态变量：一个长期耦合权重和一个记住近期活动的短期资格迹（eligibility trace）。权重如常由 ReRAM 器件的电导来编码。相比之下，资格迹则存储在该器件的局部温度中，由集成在其上方或旁边的纳米级阻性加热器控制。在正常脉冲处理期间，ReRAM 只是将输入脉冲乘以其存储的权重。在学习阶段，由神经元产生的、分别对应“之前何处发放”和“突触后神经元当前敏感度”的信号会驱动微小加热器中的电流。由于加热器与 ReRAM 在热上耦合，这一功率会按这两个信号的乘积提升器件温度——这正是 e-prop 算法所需的数学资格迹。

热如何改变记忆

在处理完一段短输入序列（称为数据帧）后，累积的温升编码了该突触改变的“资格”程度。随后在 ReRAM 上施加一固定的编程脉冲。关键在于，详尽实验表明，所得的电导变化强烈依赖于温度：温度越高，电导变化越大，而且该变化的方向和幅度还取决于初始电导状态以及器件是被驱向更高还是更低电导。通过谨慎选择脉冲振幅并利用这种温度敏感性，作者设法使权重变化大致与存储的资格成正比。对三维集成的加热器—ReRAM 结构中热流的数值建模证实，温度可以在可调时间尺度上被提升并允许衰减，而且该结构可以被设计为增强期望的自加热同时限制对邻近突触的热“串扰”。

把热突触付诸测试

为评估这种特殊突触是否真正有用，作者模拟了包含现实器件行为（如温度衰减、器件间差异和有限精度）的完整类脑系统。在一项示例中，一个脉冲网络控制一个虚拟老鼠，它必须学习在网格迷宫中导航以寻找奶酪并避免陷阱。在这里，自然的热冷却——缓慢侵蚀存储的资格——起到强化学习中熟悉的“折扣因子”作用：近期的状态—动作对比久远的更重要。模拟结果显示，当这一衰减既不太快也不太慢时学习最快，且 ReRAM 行为的变异仅会逐步降低性能。在第二个更具挑战性的测试中，带热内赫布突触的递归脉冲网络在 TIMIT 音素分类基准（一个标准语音识别任务）上进行在线训练。具有足够电导分辨率（约相当于 8 位）的硬件感知模型，能够在精确的浮点实现的准确率内差距只有几个百分点。

这对未来 AI 硬件意味着什么

总体而言，这项研究证明局部温度可以作为一个实用且可控的内部记忆来支持高级学习规则，从而在无需大量数字开销的情况下实现快速片上训练。所提出的突触占据的面积与传统 ReRAM 单元大致相当，却同时实现了稳定权重和衰减痕迹，其每步学习的能耗在皮焦耳量级。虽然依赖热效应带来实际挑战——温度难以直接测量且会加速器件老化——该工作表明，拥抱而非对抗电热效应可能会解锁新型紧凑学习硬件。对非专业读者而言，结论是：未来的 AI 芯片可能不仅仅在传输电子，它们也可能通过精心设计的热模式来计算，使机器学习在能效和适应性上更接近人脑。

引用: Pande, S., Bezugam, S.S., Bhattacharya, T. et al. NeoHebbian synapses to accelerate online training of neuromorphic hardware. Sci Rep 16, 6836 (2026). https://doi.org/10.1038/s41598-026-35641-z

关键词: 类脑计算, 脉冲神经网络, ReRAM 突触, 在线学习, 硬件高效人工智能