Clear Sky Science · zh

一种用于壁画数字化的 SfM 系统：基于注意力引导的特征匹配与鲁棒稀疏重建

2026-03-21 · 返回目录

为何保护古代壁画需要新的数字方法

在中国西北的戈壁沙漠中，莫高窟的彩绘壁面正逐渐褪色、开裂与剥落。修复人员希望获得这些壁画的高精度数字副本，以便学者和公众在原作退化之后仍能研究与欣赏它们。但要把成千上万张特写照片整合成一幅平整、无畸变的壁面图像——尤其是针对弯曲且受损的墙面——实际难度很大。本文介绍了一套专为石窟壁画设计的新计算机视觉系统，使数字重建更清晰、更可靠，并在大规模应用上更具可行性。

从拼接照片到无缝整体壁面

数字化壁画并非简单地拍一张照片就能完成。高分辨率相机沿着移动轨道对墙面拍摄大量重叠的图像，形成局部视图的密集网格。传统软件常常在二维上“拼接”这些图像，通过扭曲与混合生成全景图。这在墙面平整、光照均匀时可行，但石窟壁画会弯曲、隆起、角落变暗，且包含大面积空白或高度重复的区域。在这些情况下，拼接可能产生可见的接缝、人物错位或形变。作者因此采用一种三维策略——结构光束法（Structure-from-Motion, SfM）：计算机先估计每张照片的相机位置并在空间中重建壁面表面，然后再投影回精确的正面图像。

教会计算机识别正确的细节

SfM 的核心是跨图像匹配微小的视觉细节——“特征点”。在壁画上，这非常棘手：几乎一模一样的人物排布、褪色的颜料以及大块空白区域会欺骗算法，使其连接错误的点或匹配太少。新系统通过一种受现代深度学习启发的“注意力引导”匹配方法来应对这一问题。算法不是孤立地评判每个特征，而是同时观察特征的模式，学习哪些特征在重叠视图间更可能对齐。它还融入了关于重叠区域应出现位置的空间理解：位于两幅图像共享区域之外的特征即便外观相似也会被弱化权重，而位于合理重叠区的特征则被优先考虑。视觉上下文与空间感知的结合显著减少了错误匹配，同时在处理成千上万张高分辨率图像时保持了可控的计算量。

逐边重建三维壁面

即便匹配质量提升，若相机参数估计错误或尝试同时调整过多视点，SfM 仍可能出错。壁画带来特有问题：处理后相机元数据常缺失或不可靠，场景近似平面会导致恢复的虚拟墙面在模型中出现“弯曲”。作者提出两项针对壁画的修正。其一，不依赖文件标签重用相机焦距，而是通过测试候选值并选取能产生一致几何形状的值，再在采用相同拍摄设置的视图间共享平均值来重新估计焦距。其二，用“基于边界的捆绑调整”替代全局优化：系统只对重建边界上不断增长的摄像机与三维点进行微调，而不频繁改动约束良好的内部视图。这种有针对性的优化减少了漂移，保持虚拟墙面的平整，并缩短了处理时间。

在真实洞窟中的系统测试

研究者在莫高窟九个洞窟近 1,800 张图像以及一个名为 MuralDH 的大型公开数据集上评估了他们的系统，并模拟了相机沿壁面扫描的拍摄方式。与常用开源工具（如 COLMAP、VisualSFM、OpenMVG 和 MVE）直接比较时，新流水线更常成功重建更多壁画集，产生更低的几何误差且运行更快。有些竞争系统完全无法重建的洞窟，在新方法下得到了干净的点云和稳定的相机轨迹。当将生成的稀疏三维模型输入到商业软件进行密集重建时，得到的正面图像清晰且几乎无畸变，修复人员可以实际使用——这是以前自动化流程无法可靠提供的结果。

更清晰的数字化古代窗口

对非专业读者而言，结论很直接：这项工作使大规模构建忠实的、高分辨率脆弱壁画数字副本变得更可行。通过将计算机视觉工具针对石窟壁画的特殊性进行定制——重复图案、细微的浮雕、缺失的相机数据——作者的 SfM 系统能够将庞大且混乱的照片档案转变为几何上可靠、无缝的壁画视图。这些数字重建成果可用于修复规划、学术分析和公众展览，帮助在原始颜料逐渐消逝之际保存墙面上的视觉故事。

引用: Fang, K., Min, Z. & Diao, C. An SfM system for mural digitization with attention-guided feature matching and robust sparse reconstruction. npj Herit. Sci. 14, 166 (2026). https://doi.org/10.1038/s40494-026-02385-y

关键词: 壁画数字化, 文化遗产, 三维重建, 计算机视觉, 敦煌莫高窟