Clear Sky Science · zh
一种用于壁画数字化的 SfM 系统:基于注意力引导的特征匹配与鲁棒稀疏重建
为何保护古代壁画需要新的数字方法
在中国西北的戈壁沙漠中,莫高窟的彩绘壁面正逐渐褪色、开裂与剥落。修复人员希望获得这些壁画的高精度数字副本,以便学者和公众在原作退化之后仍能研究与欣赏它们。但要把成千上万张特写照片整合成一幅平整、无畸变的壁面图像——尤其是针对弯曲且受损的墙面——实际难度很大。本文介绍了一套专为石窟壁画设计的新计算机视觉系统,使数字重建更清晰、更可靠,并在大规模应用上更具可行性。
从拼接照片到无缝整体壁面
数字化壁画并非简单地拍一张照片就能完成。高分辨率相机沿着移动轨道对墙面拍摄大量重叠的图像,形成局部视图的密集网格。传统软件常常在二维上“拼接”这些图像,通过扭曲与混合生成全景图。这在墙面平整、光照均匀时可行,但石窟壁画会弯曲、隆起、角落变暗,且包含大面积空白或高度重复的区域。在这些情况下,拼接可能产生可见的接缝、人物错位或形变。作者因此采用一种三维策略——结构光束法(Structure-from-Motion, SfM):计算机先估计每张照片的相机位置并在空间中重建壁面表面,然后再投影回精确的正面图像。

教会计算机识别正确的细节
SfM 的核心是跨图像匹配微小的视觉细节——“特征点”。在壁画上,这非常棘手:几乎一模一样的人物排布、褪色的颜料以及大块空白区域会欺骗算法,使其连接错误的点或匹配太少。新系统通过一种受现代深度学习启发的“注意力引导”匹配方法来应对这一问题。算法不是孤立地评判每个特征,而是同时观察特征的模式,学习哪些特征在重叠视图间更可能对齐。它还融入了关于重叠区域应出现位置的空间理解:位于两幅图像共享区域之外的特征即便外观相似也会被弱化权重,而位于合理重叠区的特征则被优先考虑。视觉上下文与空间感知的结合显著减少了错误匹配,同时在处理成千上万张高分辨率图像时保持了可控的计算量。
逐边重建三维壁面
即便匹配质量提升,若相机参数估计错误或尝试同时调整过多视点,SfM 仍可能出错。壁画带来特有问题:处理后相机元数据常缺失或不可靠,场景近似平面会导致恢复的虚拟墙面在模型中出现“弯曲”。作者提出两项针对壁画的修正。其一,不依赖文件标签重用相机焦距,而是通过测试候选值并选取能产生一致几何形状的值,再在采用相同拍摄设置的视图间共享平均值来重新估计焦距。其二,用“基于边界的捆绑调整”替代全局优化:系统只对重建边界上不断增长的摄像机与三维点进行微调,而不频繁改动约束良好的内部视图。这种有针对性的优化减少了漂移,保持虚拟墙面的平整,并缩短了处理时间。

在真实洞窟中的系统测试
研究者在莫高窟九个洞窟近 1,800 张图像以及一个名为 MuralDH 的大型公开数据集上评估了他们的系统,并模拟了相机沿壁面扫描的拍摄方式。与常用开源工具(如 COLMAP、VisualSFM、OpenMVG 和 MVE)直接比较时,新流水线更常成功重建更多壁画集,产生更低的几何误差且运行更快。有些竞争系统完全无法重建的洞窟,在新方法下得到了干净的点云和稳定的相机轨迹。当将生成的稀疏三维模型输入到商业软件进行密集重建时,得到的正面图像清晰且几乎无畸变,修复人员可以实际使用——这是以前自动化流程无法可靠提供的结果。
更清晰的数字化古代窗口
对非专业读者而言,结论很直接:这项工作使大规模构建忠实的、高分辨率脆弱壁画数字副本变得更可行。通过将计算机视觉工具针对石窟壁画的特殊性进行定制——重复图案、细微的浮雕、缺失的相机数据——作者的 SfM 系统能够将庞大且混乱的照片档案转变为几何上可靠、无缝的壁画视图。这些数字重建成果可用于修复规划、学术分析和公众展览,帮助在原始颜料逐渐消逝之际保存墙面上的视觉故事。
引用: Fang, K., Min, Z. & Diao, C. An SfM system for mural digitization with attention-guided feature matching and robust sparse reconstruction. npj Herit. Sci. 14, 166 (2026). https://doi.org/10.1038/s40494-026-02385-y
关键词: 壁画数字化, 文化遗产, 三维重建, 计算机视觉, 敦煌莫高窟