Clear Sky Science · zh

DVS-PedX:合成与真实相结合的事件型行人数据集

· 返回目录

为什么更快的道路“视觉”很重要

当驾驶员靠近人行横道时,短短几分之一秒就可能决定你是否能及时刹住车。如今的驾驶辅助系统通常依赖普通视频相机,以每秒多次捕获完整图像。但一种更新型的“事件相机”更像人类视网膜,只对每个像素的亮度变化做出反应。本文介绍了 DVS‑PedX,这是一个大型数据集,旨在帮助研究人员教会此类相机及受大脑启发的算法在雨、雾或夜间等条件下也能察觉行人何时准备过马路。

Figure 1
Figure 1.

从常规视频到新型视觉

传统相机以固定间隔拍摄完整快照,不论场景中是否有运动。相比之下,事件相机在场景某点变亮或变暗时会报告微小的“闪”信息。每个事件包含其位置、时间以及亮度是上升还是下降,时间精度可达微秒级。这使得它们天生擅长捕捉运动和边缘,同时忽略大体静止的背景。对于检测行人和预判其意图等任务,这种“仅记录变化”的视角在效率、速度以及对强光、阴影或车灯的鲁棒性上,往往优于传统视频。

构建虚拟人行横道城市

为了为科学家提供可控的数据,作者首先使用 CARLA 驾驶模拟器创建了数百个虚拟街景。自动驾驶汽车接近人行横道时,数字行人可能会也可能不会跨出路面。每次运行都会随机切换光照(白天、黄昏、夜间)和天气(晴、雨、雾),也会变换行人的外观和具体的过街时机。两个虚拟传感器——一个普通彩色相机和一个模拟事件相机——从驾驶员视角进行观察。系统以 30 帧/秒记录标准视频,同时将事件流每 33 毫秒压缩为“事件帧”,以便与每帧视频对齐。每帧被简单标注为“过街”或“未过街”,使训练和测试感知行人的系统变得直观明了。

将真实行车记录转为事件流

单靠虚拟场景还不够:真实街道更加杂乱。为此,团队用一个广泛使用的行车记录集合 JAAD 构建了第二部分,该集合包含城市驾驶的短片段并对行人行为进行了精细标注。他们将所有 346 段视频通过一个转换工具,模拟事件相机对每帧的响应。该工具对每个像素的亮度变化建模,甚至在帧间进行插值以近似连续运动。结果是对真实道路的“合成事件视图”,在行人和车辆移动处形成清晰的运动边缘,而大部分静态背景被弱化。作者将这些转换后的流与制造中使用的物理事件相机数据进行了比对,显示合成事件在总体活动、结构和时间特性上与真实事件相符。

数据集包含内容及其表现

DVS‑PedX 结合了来自 CARLA 的 198 个模拟序列和来自 JAAD 的 346 段转换真实剪辑。每个序列提供匹配的彩色图像与事件帧、用于精细时序分析的原始事件文件,以及帧级的过街标签。过街事件本身相对稀少,这反映了真实交通情形,使得学习问题既现实又具挑战性。为证明数据集既有用又不平凡,作者训练了脉冲神经网络——以离散脉冲处理信息、类似生物神经元的算法。这些模型在合成序列上表现强劲,但在直接测试转换后的真实数据时准确率下降,随后在混入一部分真实数据进行训练后又有所提升。这种“模拟到现实的差距”表明该数据集能够推动领域自适应和多模态融合方面的研究。

Figure 2
Figure 2.

通过更智能的感知让街道更安全

简言之,DVS‑PedX 是一个经过精心汇编的库,收录了人们可能会或可能不会过马路的时刻,从普通相机和事件相机两种“视角”观察。通过涵盖干净的仿真和真实行车记录的粗糙片段,并提供清晰标签与开源工具,它为研究人员提供了一个共同的测试平台,以探索在困难条件下如何检测行人并预判其意图。期望通过从该数据集中学习,未来的驾驶辅助与机器人系统能够更快、更可靠地做出反应——让我们的道路上出现更安全、更警觉的机器。

引用: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

关键词: 事件相机, 行人安全, 自动驾驶, 类神经形态视觉, 交通数据集