Clear Sky Science · zh

在事件驱动感知中用连续流评估框架弥合延迟差距

2026-03-16 · 返回目录

更快的机器人视觉为何重要

想象一辆自动驾驶汽车发现突发障碍物，或一台机器人试图回击高速乒乓球。在这些瞬息万变的情形中，快速感知与清晰感知同等重要。本文介绍了一种新的评估方式，用以判断最前沿“事件相机”在跟踪运动目标时的速度与可靠性，并展示了传统实验室测试如何显著高估这些系统在真实世界中的表现。

从快照到流

现今的大多数计算机视觉系统都把世界当成幻灯片。常规相机以固定间隔捕获图像，算法逐帧处理。即便工程师使用以微秒分辨率感知亮度变化的类神经形态（事件驱动）相机，他们也常常将那种丰富的连续流重新转换为粗糙的帧。这种基于帧的思维掩盖了一个关键问题：延迟。系统每次等待下一帧并处理它时，都要损失宝贵毫秒。在自动驾驶或人机交互等高速任务中，这种延迟意味着系统总是在对最近的过去做出反应，而非当下。

评估实时视觉的新方法

为弥合实验室评分与现实需求之间的差距，作者提出了一个名为STream-based lAtency-awaRe Evaluation（STARE）的框架。STARE 不再强制将事件数据打包成固定帧，而是在模型完成上一次预测后，立即用最新的事件喂入模型。这种“连续采样”让模型持续工作，并将其输出频率推至硬件允许的上限。同时，STARE 以一种新的方式评判准确性：把运动物体的每一个地面真实位置与该时刻可用的最新预测配对。如果模型很慢，相同的陈旧预测会在多个时间点重复使用，其表观准确性就会下降。这直接把延迟的代价纳入最终得分。

构建高速测试平台

测量如此细粒度的时序需要同样细粒度的数据，而现有的事件相机数据集通常缺乏这一点，通常只以每秒几十次的频率记录目标位置。因此，作者创建了 ESOT500——一个以每秒500次标注目标位置的新数据集，涵盖低分辨率与高分辨率事件相机，并囊括旋转风扇、飞鸟和移动车辆等多种场景。在这种密度下，地面真实轨迹能足够精细地跟踪快速且复杂的运动，从而避免“时间混叠”（低采样率使曲折且高速的轨迹显得过于简单）。ESOT500 因此可作为任何声称能处理快速且不可预测动态的方法的压力测试。

当延迟变得关键时真实情况如何

有了 STARE 和 ESOT500，作者们重新评估了一系列最先进的目标跟踪器。在传统的基于帧的测试下，较重、较复杂的模型常常表现最佳。然而在 STARE 评估下，许多这些高精度但缓慢的系统在考虑延迟后有效准确率下降了超过一半。相反，较轻、更快的模型迅速登上榜首，因为它们能提供更频繁、更新更及时的预测。团队在一个机器人打乒乓的实验证实了这一点：机器人使用事件相机和跟踪器回击来球时，适度更快的感知几乎将命中率翻倍，而一个离线表现强但运行缓慢的模型表现不佳。换言之，在实时场景中，信息的速度与新鲜度有时能胜过纯粹的精度。

更聪明地利用连续流

除了评估外，作者还探讨了如何为连续视觉设计更好的系统。一种策略“异步跟踪”（Asynchronous Tracking）将一个缓慢但精细的基础模型与一个更小、更灵活的辅助模型配对，后者在基础模型完整运行之间持续更新目标位置。这种双重设置复用共享特征并利用事件的连续流，将输出频率提高近80%，并将延迟感知精度提升约60%。第二种策略“上下文感知采样”（Context-Aware Sampling）则监测目标周围发生的事件数量：当场景平静、变化较少时，跟踪器暂时重用最后一个良好估计以避免重复计算，从而节省不必要的工作；当运动增加时它又会重新激活，这在低活动或稀疏事件条件下尤其有用。

缩小实验室与现实之间的差距

对于非专业读者，核心信息很简单：在快速运动的情形中，一个视觉系统更新对世界理解的速度，与每次单独预测的准确性同样重要。通过将相机输出视为真正的流并把延迟直接计入评分，STARE 揭示了传统测试忽视的弱点，并突出了在压力下真正可行的设计。结合 ESOT500 数据集和提出的跟踪策略，这项工作指向未来的机器人、车辆和交互式机器，不仅能看得清楚，而且能及时看见。

引用: Chu, J., Zhang, R., Yang, C. et al. Bridging the latency gap with a continuous stream evaluation framework in event-driven perception. Nat Commun 17, 2441 (2026). https://doi.org/10.1038/s41467-026-70240-6

关键词: 事件相机, 实时跟踪, 机器人视觉, 延迟感知评估, 类神经形态感知