Clear Sky Science · zh

基于可变形注意力机制的目标跟踪算法

2026-03-06 · 返回目录

在拥挤混乱的世界中保持追踪

现代摄像头监控繁忙的街道、购物中心和工厂车间，但教会计算机在这些场景中跟踪众多移动的人和物体却出乎意料地困难。有人从柱子后面经过、车灯眩光，或人群在门口拥挤通过时，即便是先进的跟踪软件也可能丢失目标、混淆身份，或消耗过多计算资源。本文提出了一种新的跟踪方法，旨在在这些真实世界的混乱场景中更可靠地锁定目标，同时仍保持足够高的运行效率以供实际使用。

为何传统跟踪方法不够

目标跟踪系统通常有三个阶段：先扫描每帧视频以提取视觉特征，然后融合不同尺度和区域的信息，最后预测每个目标随时间的运动。许多近期方法在这三步中的某一步上取得了改进——例如提升检测器、加速计算或加入更聪明的运动模型。但在拥挤、快速变化的场景中，这些部分之间的弱点会暴露出来。标准网络中固定的“视野”无法围绕弯曲的身体或变化的姿态灵活调整，而假设平滑简单运动的运动预测在人员停下、转向或短暂被遮挡时会严重漂移。

对运动目标的灵活之眼

作者通过赋予跟踪系统一种更灵活的“观察”方式来应对这些限制。他们以流行的图像处理骨干网络 ResNet-18 为起点，融入了可变形注意力机制。该机制不再总是在刚性、等间距的位置采样视觉信息，而是学习将采样位置滑向目标上最有信息量的部位——例如躯干或头部的轮廓——同时忽略干扰性的背景信息。通过在网络的更深层插入这种灵活注意力，系统可以在人员改变姿态、缩放或部分遮挡时自适应地调整关注点，而不会显著增加计算负担。大型基准测试表明，这种灵活的“之眼”不仅提升了跟踪精度，计算增加不到 8%，参数也只略有增加。

跨尺度与时间混合细节

同时跟踪多目标还要求系统既能理解细节又能把握全局。为此，该方法使用了一个特殊的特征融合模块——双向特征金字塔，将粗糙的高层视图与细致的低层特征混合。作者在该模块中也增强性地引入了可变形注意力，使其在人员重叠或快速移动时更好地对齐那些本可能错配的特征。这有助于在人群密集时分离个体并减少身份混淆。在时间维度上，算法依赖于控制理论中的经典工具卡尔曼滤波，但以更智能的方式使用。系统不再把模型预测视为主要真相、检测器仅作小修正，而是让滤波器的行为由每帧检测器的置信度驱动。当检测器很有把握时，系统直接信任检测结果并切断误差积累；当检测器不确定时，滤波器更多依靠过去的运动信息，两者平滑融合。

在真实世界中表现如何？

团队在旨在严苛测试跟踪算法的公共数据集上评估了他们的方法，称为 DAM-Track。在强调长序列与强变形、完全遮挡等困难情形的单目标测试中，可变形注意力骨干在不增加大量开销的情况下提高了重叠率和成功率。在一个以极度密集行人群体著称的多目标基准上，DAM-Track 在总体准确性、更准确的定位和更好的身份一致性方面均优于广泛使用的方法，如 ByteTrack 和 DeepSORT。它能维持更多轨迹更长时间、丢失更少目标，并在避免身份切换方面表现尤为突出，这对安全监控和交通分析等应用至关重要。

这对日常应用意味着什么

对于非专业读者而言，结论是这项工作使计算机视觉跟踪器在那些最重要的、凌乱且不可预测的场景中更具鲁棒性——从火车站和城市街道到智能商店和自动驾驶车辆。通过允许系统的“视线”向重要区域弯曲，并通过共享的置信度概念协调特征提取、多尺度融合和运动预测，作者构建了一个闭环跟踪器，能够更好地记录随时间变化的人员位置。尽管在夜间、空中视角和多摄像头场景中仍需进一步测试，这种灵活且以置信度为导向的设计指向了新一代跟踪系统的方向，它们能够在不要求不切实际计算资源的前提下更可靠地监视复杂环境。

引用: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x

关键词: 多目标跟踪, 计算机视觉, 注意力机制, 人群监控, 自动驾驶