Clear Sky Science · zh

用于感知置信度的多目标跟踪哨兵

· 返回目录

同时跟踪许多目标

从自动驾驶汽车和配送机器人,到智能监控摄像头和体育转播,现代机器越来越需要同时跟踪多个人或物体。然而现实很混乱:人群遮挡视线、相机模糊,检测器也不确定微弱轮廓是人物还是背景。本文提出“Sentinel”(哨兵),这是一种通过显式推理不确定性——系统对所见内容的确信程度或不确信程度——来更可靠地跟踪多个移动目标的新方法。

真实世界中跟踪为何困难

多目标跟踪系统通常分两步工作。首先,在每帧视频中检测目标。其次,将这些检测在时间上连接起来,为每个个体形成连续路径或轨迹。现有系统倾向于只信任最有信心的检测,丢弃较弱的检测以避免误报。这能提高精确率但会损失召回率:在运动模糊或部分遮挡时,许多真实的人物只以很弱的方式被观测到,因而被丢弃。与此同时,传统跟踪器经常在轨迹缺失固定帧数后就将其删除。这种基于“年龄”的规则在真实人群中行不通——有人可能在一段时间内被其他人遮住然后再出现,使得他们的轨迹被切成片段并且身份被重新分配。

Figure 1
Figure 1.

一个知道何时确信或不确信的跟踪器

Sentinel 通过将每条轨迹视为具有自身随时间演变的置信度来解决这两类问题。系统的一部分称为置信感知关联(Confidence Aware Association),它考察一条轨迹匹配成功的频率、近期匹配失败的频次以及最近检测的强度。基于这些历史信息,它将每条轨迹分类为“确信”、“不确定”或“有风险”。对于运动可被很好预测的确信轨迹,Sentinel 更依赖目标的预计位置,而较少依赖视觉外观,这有助于避免把长得相似但位置不同的人混淆。对于可能刚刚从遮挡中出现或预测不稳的有风险轨迹,系统则反向操作:扩大搜索区域,更依赖目标的外观而不是简单运动模型所预测的位置。

给消失的轨迹第二次机会

第二个组件称为生存增强机制(Survival Boosting Mechanism),当轨迹面临消失风险时它会介入。Sentinel 并不在缺失固定帧数后立即删除轨迹,而是维护一个“生存分数”,当轨迹保持未匹配时该分数会增长。随着风险上升,系统会主动在低置信度检测中搜索——即检测器不太确定的信号——以寻找可能属于同一人的候选项。它温和地调整对位置、外观和物理运动限制的信任程度,逐步允许更大的位置误差,同时要求外观一致性和合理的运动。当某个弱但合理的检测通过这些检验后,Sentinel 会暂时提升其内部置信,以便它能在主匹配步骤中与更强的检测竞争,从而给原始轨迹一个继续存在的机会,而不是被替代。

Figure 2
Figure 2.

对 Sentinel 的检验

作者在三个具有挑战性的基准数据集上测试了 Sentinel。MOT17 涵盖了多样的街景行人场景,MOT20 聚焦极度拥挤且重度遮挡的情况,DanceTrack 则跟踪舞者——他们动作非线性且不可预测,同时常穿相似服装。在这些数据集上,Sentinel 在强调保持每个人身份连贯性的衡量指标上持续带来改进,例如识别 F1 分数(IDF1)和更高级别的跟踪精度(Higher Order Tracking Accuracy)。与那些将所有检测一视同仁或被动终止轨迹的知名跟踪器相比,它也减少了身份切换和轨迹碎片数。尽管 Sentinel 引入了一些额外计算,并且在依赖弱检测时可能产生更多假阳性,但在大多数场景下它仍足够快速以支持实时应用。

这对日常技术意味着什么

简而言之,Sentinel 使机器视觉系统更有耐心、更具判断力。它不会在目标难以看清时立即放弃,也不会盲目信任每一个模糊的线索,而是持续询问对每条轨迹有多确信,并据此调整行为。这一策略在最具挑战性的场景中尤为有效:繁忙的人行道、密集人群或快速移动的表演者。该工作表明,未来的跟踪系统——无论是在汽车、无人机还是摄像头中——如果将不确定性作为一等信号来对待,用其来决定何时谨慎、何时更积极搜索、何时给接近丢失的目标再一次机会,将更为可靠。

引用: Yang, HS., Park, SW., Sim, CB. et al. Sentinel for confidence-aware multi-object tracking. Sci Rep 16, 13571 (2026). https://doi.org/10.1038/s41598-026-43938-2

关键词: 多目标跟踪, 计算机视觉, 目标检测, 遮挡处理, 轨迹连续性