Clear Sky Science · zh

通过解释遮挡来促进循环连接下的遮挡物体识别

· 返回目录

大脑如何看见不存在的东西

在日常生活中,我们轻而易举地识别部分被遮挡的物体——比如窗帘后的一只猫、树后的一辆车。本文探讨了大脑以及受大脑启发的人工网络如何完成这一任务。作者表明,具有反馈回路的电路可以利用关于遮挡物的信息在内心“填补”被遮挡部分,从而揭示了当世界混乱、不完整时我们视觉系统可能依赖的关键技巧。

Figure 1
Figure 1.

为什么被遮挡的物体是个难题

当一个物体被遮挡时,它的许多典型视觉特征会丢失或被扭曲。一个简单的前馈视觉系统——信息从眼睛直接流向识别中心——必须仅根据可见碎片去猜测隐藏的物体。然而,生物大脑充满了循环连接——更高层区域会反馈到早期区域。这些回路长期以来被认为有助于解决像识别被遮挡物体这样的困难任务,但它们到底提供了什么优势、以及如何改变我们所见事物的内部表征,尚不清楚。

将受大脑启发的网络付诸测试

作者构建了大量模仿视觉处理阶段的深度卷积网络。其中一些是纯前馈的,另一些则具有循环回路或额外的自上而下反馈。他们在定制图像集上训练这些模型,图像集中一个时尚物品部分遮挡另一个。网络必须在不同任务设置下识别前(遮挡物)和后(被遮挡物)两个对象。性能与其说取决于网络是不是循环结构,不如说取决于其“计算深度”——输入经过的顺序处理步骤数量。深层前馈模型在基本识别任务上可以匹敌甚至优于循环模型,表明循环本身并非必然优越。

一个特殊技巧:解释遮挡物

尽管深度对原始准确率影响最大,循环网络在利用上下文方面显示出独特优势。当这些网络被要求先识别前景物体,然后再识别隐藏物体时,相较于直接单独分类隐藏物体,它们对隐藏物体的识别表现更好。普通一次性同时输出两个标签的前馈网络没有出现这种模式。作者将此解释为“解释遮挡”:一旦系统识别出遮挡物,它就能把图像中那些异常、缺失的特征视为由该遮挡物造成,而不是作为某个奇怪新物体的证据。在更真实的三维场景以及受灵长类启发的模型(CORnet)中,相同的顺序——先前景后隐藏——也提升了识别效果。

Figure 2
Figure 2.

在人类中看到相同效应

为探究人类是否使用类似策略,研究者进行了一个在线实验。参与者短暂看到一个单独物体,随后看到一个场景,其中一个物体遮挡另一个,最后必须在两个选项中选择哪个是被隐藏的物体。在部分试次中,最初看到的单独物体与随后出现的遮挡物相同;在另一些试次中则无关。当人刚刚看到实际的遮挡物时,他们对隐藏物的识别更准确、反应也更快,且这一效果在不同遮挡程度下均存在。这表明我们的脑子,像循环网络一样,受益于先处理遮挡物再利用该信息去解释后面的部分证据。

从内部重建被遮挡的图像

为更深入探究机制,作者设计了一个更具生物学启发的模型 Recon-Net,基于视觉皮层与前额叶皮层之间交互的粗略类比。Recon-Net 接收包含被遮挡物体的图像以及遮挡物的单独视图,并迭代地变换内部表征,直到其匹配未被遮挡的隐藏物体应有的样子。引人注目的是,仅在干净、未遮挡图像上训练的分类器几乎能像直接在遮挡样本上训练一样识别 Recon-Net 的输出。这意味着循环处理有效地“重构”了隐藏物体的清晰内部图像,即便像素层面信息缺失。

这对大脑与机器意味着什么

总体而言,这项研究表明反馈回路不仅仅与原始性能有关,而是体现了一种在利用上下文方面的质的不同。循环连接天然支持解释遮挡:它们使视觉系统能够解释遮挡物如何扭曲我们所见,并恢复隐藏物体的稳定内部表征。与此同时,作者发现,在大量遮挡图像上训练可以使对清晰图像的响应基本保持不变,这或许通过避免频繁重连线而减轻真实大脑的学习负担。这些见解指向一个对神经科学与人工智能共有的原则:当世界隐藏信息时,聪明的系统不只是更努力地看——它们推断信息缺失的原因。

引用: Kang, B., Midler, B., Chen, F. et al. Recurrent connections facilitate occluded object recognition by explaining-away. Nat Commun 17, 2225 (2026). https://doi.org/10.1038/s41467-026-68806-5

关键词: 遮挡物体识别, 循环神经网络, 视觉感知, 解释遮挡, 计算神经科学