Clear Sky Science · zh

利用突触晶体管的运动分析实现超越人类能力的超快视觉感知

· 返回目录

为什么更快的机器人视觉很重要

当汽车的自动驾驶系统或飞行无人机响应慢上哪怕几十分之一秒,后果可能很严重。如今最先进的计算机视觉算法在标准测试中能与人类匹敌甚至超过,但在实时处理每一帧视频时仍然太慢。本文提出了一种受大脑启发的新型视觉硬件,使机器能够在不牺牲精度的前提下,比人类更快地检测运动。

Figure 1
Figure 1.

我们通常如何教机器识别运动

传统的运动分析依赖于一种称为光流的技术,它估计图像中每个点从一帧到下一帧的位移。这种方法效果很好但计算量大:处理一幅全高清图像,强大的图形卡可能需要超过半秒才能完成。在高速场景如高速公路驾驶中,这种延迟会导致车辆在系统识别出危险之前行驶数十米。与迅速聚焦场景中最相关部分的人类视觉系统不同,标准算法会逐像素地处理图像,即便是静止的背景区域也会被一视同仁地耗费计算资源,而这些区域通常信息量很小。

借鉴大脑早期视觉阶段的技巧

生物学通过在眼睛和丘脑的早期滤波层中强调变化发生的区域并削弱其他区域来解决这一问题。作者在硅基芯片中模仿这一思路,构建了一个类脑的“时间注意”模块。普通相机仍然采集图像,但其亮度变化也会被送入一个紧凑的突触晶体管网格——这些电子器件在行为上有点类似于大脑中的可调连接。每个器件在本地累积其负责区域在短时间窗口内的光强变化。网格中发生强烈变化的补丁会作为感兴趣区域被点亮,而更平静的区域则淡出背景。

Figure 2
Figure 2.

会记忆运动的智能晶体管

该系统的核心是由层状原子级薄材料构成的特制浮栅突触晶体管。通过施加短脉冲电压,可以调节并保持器件的电导数小时,有效地存储最近视觉活动的记忆。晶体管响应时间约为100微秒——足以应对高速视频——并能经受数千次更新循环而不退化。研究团队将单个器件扩展为4×4阵列,演示了如何将相机亮度变化转换为电压脉冲,选择性地将一些单元推入高电导的“运动”状态,同时抑制微小闪烁和噪声。

将重运算只聚焦到关键位置

阵列的输出被转化为粗略的运动“热图”,标记出紧凑的感兴趣区域。系统不再对整张图像运行昂贵的光流计算,而只分析这些被突出显示的区域,并在其周围留出一定的边界。作者证明,这种方法可以直接接入多种流行的光流方法,从经典算法如Farneback到现代深度学习模型如RAFT和GMFlow。在包括汽车、无人机、机械臂和快速体育(如乒乓球)在内的测试中,类脑前端在运动估计及后续任务(例如预测物体将移动到何处、将移动物体从背景中分割出来或跟踪目标)上,通常将耗时缩短约四倍左右。

在不牺牲精度的情况下超越人类反应速度

关键在于,这种加速并未以可靠性为代价。通过提供关于运动可能出现位置的额外信息,这些时间线索常常能提升精度,尤其是在拥挤场景中的目标跟踪和分割任务上。在车辆和小型无人机场景中,与传统流水线相比,任务性能指标提升了一倍多,而总处理时间降低到了数十毫秒——与典型人类反应时间约150毫秒相当甚至更优。作者认为,这种类脑运动前端可以与许多现有视觉算法配合使用,甚至与光流之外的目标检测器结合,为机器人、车辆和交互式机器提供一种更快、更有针对性的理解动态环境的方式。

引用: Wang, S., Zhao, J., Pu, T. et al. Ultrafast visual perception beyond human capabilities enabled by motion analysis using synaptic transistors. Nat Commun 17, 1215 (2026). https://doi.org/10.1038/s41467-026-68659-y

关键词: 类脑视觉, 光流, 突触晶体管, 机器人感知, 自动驾驶