Clear Sky Science · zh

用于多目标识别的抗干扰衍射深度神经网络

· 返回目录

在嘈杂世界中看见信号

现代生活充斥着需要在场景中挑出重要目标的摄像头和传感器——路上的行人、影像中的微小肿瘤、人群中的可疑物体——即便这些目标被杂乱背景包围。本文提出了一种新型“全光”神经网络,它用光本身而非电子芯片来完成大部分识别工作。结果是一种能够在繁杂、变化的场景中识别所选目标并将其他一切视为无害背景噪声的系统,有望为未来的视觉系统提供更快且更节能的识别能力。

Figure 1
Figure 1.

为什么光子计算机重要

传统深度学习系统运行在电子处理器上,通过数十亿个微小开关传导电流。它们功能强大,但在需要微秒级决策时常显得迟缓,并且大量能量以热的形式损耗。光提供了一个诱人的替代方案:光束可以并行承载大量信息,以极限速度传播,并且不像电流那样使电路发热。光学神经网络利用这些优势,通过精心设计的表面来塑形光线,使通过它们的光束在某种意义上“计算”出识别问题的答案。

从单一目标到拥挤场景

大多数现有的光学神经网络仅限于简单任务,例如判断清晰图像中央印刷的单个数字。它们在多个物体同时出现、重叠或移动时遇到困难——这些正是现实场景中的常见情况。过去为处理多目标而做的尝试往往要求对每个目标的位置施加严格限制,或依赖光学阶段之后的额外电子处理,从而削弱了光学方法在速度和能耗方面的优势。

教会光忽略干扰

作者提出了一种“抗干扰衍射深度神经网络”(AI D2NN),直接应对繁杂场景。它仅由两层超薄的结构化层——超表面——组成,太赫兹光束穿过这两层。这些层通过计算机训练设计,使来自目标物体(此处为手写数字0到5)的光被引导到输出面上六个小亮斑中的一个,每个数字对应一个亮斑。同时,来自其他一切——其他数字、衣物图案、字母以及它们的随机组合——的光被刻意扰乱为一片昏暗、近乎均匀的薄雾,不会触发任何输出亮斑。

Figure 2
Figure 2.

构建并测试一个物理光计算机

为了将训练得到的设计转化为硬件,团队制作了由微小圆柱形柱子构成的硅超表面,这些柱子能够以精确的量延迟通过的光。以100乘100的网格排列时,这些柱子像光学神经元,其组合效应实现了学习到的网络。研究人员用太赫兹光束测试该系统,光束被设计为展示目标数字与40种不同干扰形状的混合,这些形状以随机位置和大小放置,以模拟移动且杂乱的场景。在计算机模拟中,该光学网络在这些具有挑战性的情况下约有87%的识别正确率;实际实验装置获得了几乎相同的准确率,证明该概念在计算模型之外也能工作。

这对未来机器意味着什么

简而言之,这项工作表明,有可能构建出一种薄如纸的光学器件,在杂乱背景中仍能识别其关心的目标,耗能极低并以光速运行。由于该设计依赖于衍射的一般性质,相同的思路可以扩展到不同颜色或波长的光,并可与其他光学手段结合以同时处理更多的目标类别。经过进一步改进,类似的抗干扰光学网络可助力自动驾驶汽车快速识别关键路用户,帮助医生实时标注影像中可疑特征,或支持无需大量电子处理的轻量级安防摄像头识别威胁。

引用: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7

关键词: 光学神经网络, 多目标识别, 超表面, 太赫兹成像, 全光计算