Clear Sky Science · zh

面向单目、双目和 RGB-D 相机的具尺度感知的密集动态图 SLAM

2026-02-24 · 返回目录

为移动与变化的世界构建更智能的数字地图

机器人、无人机和增强现实头戴设备都需要对周围环境有详尽的理解，以便安全平稳地移动。然而，当有人路过、车辆经过或家具被移动时，大多数映射系统就会吃力。这篇论文提出了 SDMFusion，一种新的映射方法，能够在实时条件下构建丰富且精确的 3D 地图，即便摄像机周围充满运动，并且兼容几种常见相机类型。

传统视觉系统为何不足

许多机器人依赖视觉 SLAM，这是一种让相机在构建地图的同时确定自身位置的技术。经典系统假设世界大体静止，通常仅产生由少量追踪点组成的稀疏地图。它们在使用单目相机时也会遇到困难，因为无法判别场景的真实尺度：靠近镜头的小玩具看起来像是远处的大物体。移动的人和物会干扰这些方法，导致相机估计轨迹漂移和地图变得不可靠。这些弱点限制了低成本相机在真实家庭、街道和工作场所的应用。

用于可靠映射的三部分引擎

SDMFusion 构建在流行的 ORB-SLAM3 系统之上，但增加了三个紧密关联的模块以克服这些难题。首先，尺度-深度模块将每帧图像输入称为 DepthAnythingV2 的强大神经网络，该网络预测每个像素的距离。对于单目相机，这一预测补偿了缺失的真实世界尺度；对于双目和 RGB-D 相机，它用于平滑并填补原始深度读数中的空洞。其次，动态特征模块使用受最新 YOLO 系列启发的快速分割网络来检测可能会移动的物体。它将诸如行人、车辆以及诸如椅子等可能可移动的物体分组，然后通过几何一致性测试逐特征地检查这些物体在帧间是否真正移动。只有确属移动部分的特征会被丢弃，而稳定的特征会被保留以支持精确跟踪。第三，反动态重建模块利用精化的深度、可靠的相机位姿和静态像素掩码，仅将不动部分融合为密集的 3D 地图。

方法在实践中的表现

作者在三个知名公开数据集以及用小型无人机自行录制的场景上对 SDMFusion 进行了广泛测试。所选数据集涵盖户外驾驶、杂乱的室内房间以及包含行走、坐下或搬箱等高动态场景，使用了单目、双目和 RGB-D 相机。他们将 SDMFusion 与多种先进系统比较，包括 ORB-SLAM3、DS-SLAM、DynaSLAM 和 RDS-SLAM，使用标准度量来评估估计相机轨迹与真实轨迹的一致性。在大多数序列中，SDMFusion 实现了更低的误差和更高的成功率，尤其是在最具挑战性的动态场景以及尺度估计最困难的单目设置中。从视觉上看，其密集地图更完整，避免了将移动人员错误融合进静态环境后出现的“幽灵”或模糊形状。

优点、局限与未来方向

结果表明，结合强大的深度预测、对动态物体的谨慎处理以及选择性重建，可以得到既详尽又可信的地图。SDMFusion 在高性能桌面显卡上能够实时运行，在嵌入式硬件上则较慢，但作者通过用 TensorRT 优化深度网络演示了显著的速度提升。他们还通过消融研究探讨了各模块的重要性，确认尺度恢复、分割和运动检查都显著提升了精度和鲁棒性。然而，当视野几乎完全被单一移动物体占据、留下的清晰静态区域太少以供锚定时，系统仍可能失败；在非常复杂的场景中，单目性能仍落后于双目和 RGB-D。

这对日常机器人的意义

对非专业读者而言，关键结论是 SDMFusion 使基于摄像机的映射更接近我们期望机器人和 AR 设备在真实世界中的表现：它构建密集且带尺度的 3D 模型，在适当情况下忽略行人等移动体，并以高可靠性跟踪自身位置。尽管在小型设备和极度拥挤的场景中仍有改进空间，这项工作展示了使用轻量相机让经济型设备在繁忙的家庭、办公场所和街道中导航的清晰路径。

引用: Cen, N., Xu, Y., Wong, TW. et al. Scale aware dense dynamic SLAM for monocular, stereo and RGBD cameras. Sci Rep 16, 10285 (2026). https://doi.org/10.1038/s41598-026-41208-9

关键词: 视觉 SLAM, 3D 映射, 机器人导航, 动态环境, 深度估计