Clear Sky Science · zh

通过上下文与纹理感知的分层交互实现伪装物检测

2026-03-18 · 返回目录

为什么发现隐藏形体很重要

从叶片色的昆虫到军事伪装，甚至医疗影像中难以察觉的病灶，我们的世界充斥着与背景融为一体的对象。教会计算机可靠地找到这些隐藏目标，有助于保护野生动物、改进安全检查并帮助医生更早发现疾病。本文提出了一种新的人工智能系统，称为 CTHINet，它不仅关注整体场景的上下文，还注意人眼常常忽视的微小纹理线索，从而学会识别伪装。

既能见森林也能见树木

伪装物检测比普通目标检测难得多，因为目标往往在颜色、亮度和形状上与周围环境相匹配。早期的计算机方法依赖简单的手工设计线索，如运动、边缘或基本纹理，但在杂乱或噪声严重的场景中会失效。现代深度学习方法通过在专门的伪装动物和人造物体图像集上训练大型网络取得了进展。许多方法会加入额外提示，例如绘制目标边界或估计不确定性，但当边界本身模糊或含糊不清时——这恰恰是优秀伪装的典型情形——这些提示很容易被误导。

暴露伪装的微小纹理线索

作者认为，即便是最好的伪装也会在图像的细微纹理中留下可识别的痕迹——例如颗粒、纹样或光滑度上的微小差异，专注于轮廓时很容易被忽略。在此理念上，CTHINet 将学习分为两个协同分支。一个“上下文”分支以强大的视觉变换器（vision transformer）骨干为基础，捕获关于整个场景的广域、多尺度信息：区域之间的关系、较大形状的位置以及哪些区域可能包含目标。与此同时，一个专门的“纹理”分支狭窄地关注微妙的表面模式，并用特殊的纹理标签训练网络，告诉其哪些细节属于隐藏物体而非背景。

两个分支如何协同工作

仅仅运行两个分支还不够；它们必须以智能的方式交互。CTHINet 首先使用多头特征聚合模块（Multi-head Feature Aggregation Module）来精炼上下文特征。该模块将信息分成若干部分，每部分以不同的“放大级别”处理，使系统既能应对微小昆虫也能识别大型动物。然后将这些视图重新组合，使它们在不显著增加计算成本的情况下相互补充。接着，一系列分层混合尺度交互模块（Hierarchical Mixed-scale Interaction Modules）将上下文流与纹理流连接起来。在每个阶段，网络对两个分支的通道进行分组与混合，让它们交换信息，然后重新加权，以放大最有信息量的组合并抑制较无用的组合。这种由粗到细的堆叠逐步锐化被遮蔽目标的轮廓，并将其与令人分心的背景细节区分开来。

在野外与临床中证明其有效性

为测试 CTHINet，研究者在三个具有挑战性的公开基准数据集上对其进行了评估，这些基准包含数千张处于多样自然环境中的伪装动物与物体图像。在若干标准准确性指标上，该方法持续优于二十多个领先系统，尤其在目标很小、背景高度相似或部分遮挡的困难场景中表现突出。团队还在一个医学任务上以最小改动重复使用同一网络：结肠镜图像中的息肉分割。息肉常以类似动物融入叶丛的方式与肠壁融为一体。在这里，CTHINet 在若干强基线医学图像模型中也取得了最佳结果，表明其上下文与纹理结合的方法具有广泛适用性。

对发现几乎隐形物体的意义

通俗地说，CTHINet 体现了一个简单但有力的洞见：要找到被刻意隐藏的事物，计算机必须同时观察大局与最细微的表面细节，并让这两种视角逐步互相指导。通过设计一个清晰分工但又通过精心安排的交互将二者重新结合的网络，作者实现了对伪装目标更精确的检测，并在医学与工业检测等易被忽视重要结构的任务中显示出潜力。随着图像数据规模持续增长，这类兼顾上下文与纹理的系统可能成为揭示那些本意要被隐藏之物的关键工具。

引用: Wang, Z., Deng, Y., Shen, C. et al. Camouflaged object detection via context and texture-aware hierarchical interaction. Sci Rep 16, 9328 (2026). https://doi.org/10.1038/s41598-025-32409-9

关键词: 伪装物检测, 计算机视觉, 纹理分析, 医学图像分割, 深度学习