Clear Sky Science · zh

受大脑启发的突触晶体管,用于带有资格迹的原位脉冲强化学习

· 返回目录

受大脑启发的更聪明机器

如今的智能机器能在游戏中战胜人类并协助驾驶,但运行这些算法的硬件仍然远未达到大脑学习的方式。本文提出了一种新型微小电子器件,它复制了真实突触在从奖励和错误中学习时使用的几项关键技巧。通过将这些类突触晶体管构建到一个简单网络中,研究人员展示了一辆小型机器人车可以高效学会保持车道,而无需依赖笨重、耗电的计算机。

为什么基于奖励的学习重要

现代人工智能的大部分方法仅基于输入和输出数据调整网络连接。相比之下,动物的学习不仅来自模式,还来自由食物或愉悦等奖励所指示的成功与失败。神经科学家用“强化学习”来建模这一过程,其中大脑中的特殊化学物质,如多巴胺,会告诉突触某次行为是好是坏。相关概念“资格迹”允许突触暂时“记住”最近的活动,以便之后的奖励仍能适当地加强或削弱该连接。若能将这些特征直接在硬件中再现,学习机器将变得更快且能效大幅提升。

Figure 1
Figure 1.

像突触一样工作的单个晶体管

作者开发了一种基于特殊材料α-In2Se3的突触晶体管,该材料既是半导体又具有铁电性,意味着其内部电极化可以翻转并保持。该器件有三个端子:两个类似突触的前/后神经元端,第三个则充当奖励输入。当在前两个端子之间施加类脉冲电压时,通道电导会改变,模拟突触如何根据脉冲时序变强或变弱。由于材料的极化会随时间缓慢弛豫,电导会自然回落,提供一种内建的、逐渐消退的记忆,作为资格迹的物理替代。

将奖励和记忆嵌入物理机制中

该晶体管不仅仅是存储一个数值。其面内极化主要对代表常规时序学习的两个神经元之间信号作出响应,而面外极化则对施加在第三端子的脉冲更为敏感,第三端子起到奖励信号的作用。在脉冲活动后的弛豫期间,延迟到来的奖励脉冲作用于栅极,会增强或减弱剩余的电导变化。如果奖励来得快,资格迹尚未大量衰减,因此权重更新就大;若奖励较晚,其影响则较小。通过调整电脉冲的大小和形状,研究人员能调节资格迹的持续时间,覆盖与生物系统相近的范围,而无需额外电路或存储元件。

Figure 2
Figure 2.

从单个器件到学习汽车

为检验这些突触晶体管的实际价值,团队构建了一个小型器件阵列,并将其连接成用于车道保持任务的脉冲神经网络。道路的简单低分辨率视图被转换为进入18个输入神经元的脉冲簇,这些神经元通过新型突触连接到控制左、右转向的两个输出神经元。当模拟车辆偏离时,它会根据保持车道中心的程度收到反馈。此反馈被转换为作用于突触晶体管第三端子的奖励脉冲,直接在芯片上更新其电导。即使存在器件差异和噪声,该阵列仍学会将车辆保持在车道内,其表现与理想软件模型非常接近。

对未来器件的意义

这项工作表明,单个紧凑晶体管可以原生实现类脑强化学习的三项核心功能:基于时序的突触强度调整、将近期活动临时存储为资格迹,以及奖励驱动的对该迹的加强或抑制。由于这些功能都在器件本身的材料物理中发生,所得硬件在面积和能耗上相较于用软件模拟同样行为的传统电路具有显著节省。这类突触晶体管可成为未来边缘设备(如小型机器人、传感器或可穿戴设备)的基础,使其在与环境交互中实时学习同时极低功耗。

引用: Wang, Y., Xiong, W., Yan, J. et al. Brain-inspired synaptic transistors for in-situ spiking reinforcement learning with eligibility trace. Nat Commun 17, 3001 (2026). https://doi.org/10.1038/s41467-026-69898-9

关键词: 神经形态硬件, 强化学习, 脉冲神经网络, 铁电晶体管, 自动驾驶