Clear Sky Science · zh

基于单像素-多忆阻器架构的就地数据计算用于类脑顺序视觉

2026-03-19 · 返回目录

为何更快的视觉很重要

每当手机、机器人或自动驾驶汽车中的相机记录世界时，它必须先捕捉图像，然后将它们传到另一个芯片进行分析。这种来回传输浪费时间和能量，尤其是在视频流场景下。本文背后的研究探讨了一种新型电子“眼”，它可以在光线首次落到位点附近同时存储和处理视觉信息，灵感来自人脑处理运动场景的方式。

我们的眼睛和大脑如何处理运动

在人类中，眼睛将光转化为微小的电脉冲，沿神经传到大脑。在那里，一种短时视觉记忆保存最近的图像并进行快速的预筛选，然后再进入更深层的识别处理。这种早期过滤减少了需要传输的信息量，帮助大脑既快速又节能。新工作借鉴了这一想法，旨在为人工视觉系统提供自己的局部视觉工作记忆。

Figure 1. 人工眼将运动影像直接存储并分析于自身的记忆网格中，以实现更快、更省能的视觉感知。

像素与存储的新型协作

研究人员构建了一种硬件系统，其中每个感光像素都连接到芯片上的多个微小存储元件。这些元件称为忆阻器，可以存储一系列数值，而不仅仅是简单的开关状态，使它们非常适合保存亮度梯度。在该设计中，一个简单的模拟电路将像素的光信号转换为电压，直接同时对多个忆阻器进行编程。这种单像素对应多忆阻器的布局在存储网格中直接创建了场景的紧凑映射，类似于视网膜神经纤维扩散到多个脑细胞的方式。

快速“滚动”捕获图像

为了高效捕捉动态图像，团队引入了一种“滚动曝光”策略。系统不是抓取整帧然后传走，而是将像素的一列写入忆阻器阵列，然后迅速移动到下一列，直到完整图像被存储。一个特殊的单脉冲方法并行编程多个忆阻器，以极小的精度损失换取巨大的速度提升。对简单的人体动作剪影和人像图像的测试表明，芯片恢复出的图像保留了关键的形状和面部信息，足以进行可靠识别，尽管存在一些轻微噪声。

Figure 2. 像素信号按列填充忆阻器网格，然后通过原位处理将这些模式转换为动作类别。

在图像所在之处进行“思考”

目前大多数智能视觉硬件仍然将感测、存储和计算分离。相比之下，该系统在保存图像的同一忆阻器阵列内直接执行部分“思考”任务。研究人员在已存图像上施加精心选择的电压模式，让网格本身完成神经网络的基本数学步骤。只有精简后的结果会被传送到第二个忆阻器模块完成分类。在对一个知名的人体动作数据集的测试中，硬件对跑步、跳跃和行走等动作的识别准确率达到了95.7%，接近计算机模拟的表现。

为何这种方法可能重塑机器之眼

由于感测、短期存储和早期处理紧密耦合，新架构大幅减少了在不同芯片间来回传输数据的需求。作者估计，与使用标准存储器的典型数字系统相比，他们的设计可将图像捕获与存储的时延减少约两千倍，并将图像处理的能耗降低约160倍。对普通用户而言，这可能意味着未来出现更小、更凉、更响应迅速的摄像头和视觉引导设备，它们以更接近人类的方式观看世界，只提取每个时刻所需的信息。

引用: Sun, Y., Tong, P., Shen, J. et al. Data-In-situ Computing with One-Pixel-Multiple-Memristor Architecture for Neuromorphic Sequential Vision. Nat Commun 17, 4244 (2026). https://doi.org/10.1038/s41467-026-70860-y

关键词: 类脑视觉, 忆阻器, 内存计算, 序列图像, 能效人工智能