Clear Sky Science · zh

用于无人机影像实时小目标检测的协同多注意力网络

· 返回目录

为什么从空中捕捉微小细节很重要

随着无人机在交通监测、灾害响应和安防等领域日益普及,它们需要可靠地识别那些从高空看去非常小的目标——比如汽车、自行车或行人。在这些航空视角中,目标仅占几个像素宽,容易在阴影、眩光和复杂背景中丢失。本文提出了一种新的计算机视觉系统,称为协同多注意力网络(CMA-Net),旨在快速且足够准确地检测无人机图像中的此类小目标,以满足实时应用的需求。

从高处观察微小目标的挑战

在无人机影像中检测小目标比在普通街景照片中更困难。由于无人机飞行高度高且视角多变,车辆和行人会显得很小且模糊,光照也会迅速变化。传统的两阶段检测器尽管精度高,但通常对计算资源和带宽有限的飞行平台而言过慢,不适合实时使用。更快的一阶段方法虽然能实时运行,但往往漏检小目标,因为图像在层层处理过程中细节会被逐步冲淡。作者认为,要更好地检测小目标,就需要更智能地在多尺度间融合信息,并将计算注意力集中在图像中最具信息量的部分。

Figure 1
Figure 1.

构建更智能的特征梯度

CMA-Net以广泛使用的图像处理主干网络ResNet-50为起点,随后加入了一种高效的双向特征金字塔网络(E-BiFPN)。该结构构建了一种不同尺寸特征图的梯度,使系统能够将早期层的细节与深层的抽象上下文混合。与早期设计不同,E-BiFPN精简了不必要的高层结构,并加入了使用部分卷积的轻量级处理模块以减少计算量。随后通过加权融合方案学习在每个尺度上对浅层与深层特征的信任度,从而提升关于微小汽车或行人的脆弱信息,同时抑制背景噪声。

教会网络在哪里观察

除了重组特征之外,CMA-Net还采用了模拟人类关注场景相关部分的注意力机制。双维度通道注意(DDCA)模块沿图像的宽度和高度分别分析特征,而不是将所有信息压缩为单一的全局摘要。该设计有助于网络捕捉水平方向和垂直方向的长程模式,保留定位线索,这在小目标与复杂背景融合时至关重要。与此同时,多尺度前景注意(MSFA)模块将深层中易于识别的大目标与浅层中的小目标关联起来。通过对三种尺度的信息进行采样和融合,MSFA学会突出车辆可能出现的前景区域,并抑制易混淆的背景纹理。

Figure 2
Figure 2.

从增强特征到快速决策

DDCA与MSFA分支的输出被合并为富含小目标信息的特征图,并传递给一个“无锚”检测头。该检测头不依赖预设的密集框网格,而是直接预测目标的类别和位置,从而简化计算并使训练更灵活。作者在两个具有挑战性的公开无人机数据集(UAVDT和Stanford Drone)上评估了CMA-Net,这些数据集包含拥挤道路、多变天气和昼夜条件。CMA-Net在这些数据集上分别取得了67.2%和62.0%的准确率,同时以64帧/秒的速度运行,意味着它能实时处理视频,并在性能上超过许多流行检测器,包括部分YOLO家族成员和更复杂的基于变换器的模型。

这对现实无人机应用意味着什么

对非专业读者而言,关键结论是CMA-Net在不降低速度的情况下显著提升了无人机发现小而难以辨认目标的能力。通过在多尺度上谨慎融合信息并在通道维度与前景/背景之间引导网络注意力,该方法能防止微小车辆和行人被忽视。这种准确性与速度的组合使其在智能交通监测、人群观察和应急响应等实际应用中具有很大前景,因为在这些场景中错过小目标或反应过慢可能带来严重后果。

引用: Yang, J., Yue, X. & Wu, L. A collaborative multi-attention network for real-time small object detection in UAV imagery. Sci Rep 16, 5852 (2026). https://doi.org/10.1038/s41598-026-36440-2

关键词: 无人机视觉, 小目标检测, 实时监控, 注意力网络, 交通监测