Clear Sky Science · zh

用于文化遗产修复的大规模噪声点云完成的多尺度体素特征融合网络

2026-02-12 · 返回目录

将古老建筑重新带入数字聚焦

当历史学家用激光扫描历史寺庙或纪念碑时，得到的三维数据往往更像是充满静电的电视画面，而非清晰的图像。屋顶或雕塑的部分缺失，随机的“幽灵”点杂乱其间。本文提出了一种新的人工智能（AI）方法，能够清理并补全这些三维点云，帮助策展人和研究者更清晰地观察复杂的文化遗产场所——例如数百年历史的日本神社。

为什么遗产地的三维扫描那么凌乱

像 LiDAR 和深度相机这样的现代工具可以在几分钟内捕获数百万个建筑与景观的三维点。但树木、阴影、不利的视角以及扫描仪自身的限制，会导致某些区域根本“未被看到”，而另一些区域则被噪声污染。实际上，这会产生斑驳不均的点云，关键特征——比如相互咬合的屋梁或精细的檐口——要么缺失，要么被伪点覆盖。早期的数字修复技术要么粗糙地填补空洞、要么模糊细节、要么计算成本高昂，难以扩展到大规模的户外场景。

三步式数字修复流程

作者在之前工作的基础上，提出了一个针对大规模、噪声严重的文化遗产三维扫描的三阶段 AI 框架。第一步是多阶段过滤：算法先应用统计检验去除明显的离群点，然后使用一种基于局部表面片的引导滤波，在保留棱角等锋利形状的同时平滑剩余噪声。第二步，将净化后的点转换为三维“体素”——小立方体，并在多个分辨率下同时分析。粗网格捕捉屋顶的整体结构；细网格捕捉脊线、瓦片和边缘。这些多尺度体素特征随后通过注意力机制融合，使网络能够在对象的不同区域自主决定对每个尺度的信任程度。

锐化边缘并填补空白

在第三阶段，融合后的特征被送入基于 Transformer 的模块，预测代表缺失区域的稀疏“骨架”关键点。一个特殊的曲率引导增强步骤会测量每个区域的弯曲程度，并利用该信息调整特征，使预测的骨架更贴合真实的边缘和角点，而不是将它们圆滑化。最后，一个上采样模块将该骨架扩展为密集的、完整的点云，力求匹配真实表面，同时保持点的分布均匀，避免会干扰观察或误导分析人员的聚集或空洞。

实际效果如何？

团队在合成形状和真实扫描数据上测试了他们的方法。在一个标准的三维模型基准（ShapeNet‑55）上，他们的方法比若干领先网络在恢复缺失部分方面更准确，使关键距离度量提升了约 16% 左右，同时保持了高完整性。对遗产应用更重要的是，他们构建了一个来自真实激光扫描的日本寺庙屋顶数据集，包含真实世界的噪声。在这些数据上，该方法明显优于替代方案，尤其在数据严重污染时表现突出。在可视化对比中，所提流程生成了更清晰的瓦片、更忠实的檐口和更少的伪像。应用于包含超过 2500 万点的玉置神社大规模扫描时，它能够在实用的时间和内存预算内重建缺失的屋顶部分并精细化噪声表面。

用更清晰的数据“透视”墙体

研究人员还将他们的补全方法与先前开发的透明可视化技术相结合，使观察者能够“透视”密集点云的外表面以查看内部结构。在原始噪声数据上，玉置神社屋顶的透明视图令人困惑：空洞、散落点和缺失区域遮蔽了真实结构。在应用新的补全框架后，相同的视图显示出屋顶和檐口更清晰的轮廓，更容易理解建筑的构造方式。尽管在极度不完整或噪声压倒性的区域该方法仍然存在困难，但它在大多数区域显著提高了几何精度和视觉可读性。

这对文化遗产意味着什么

简言之，这项工作为历史遗址的三维扫描提供了一个更智能的“数字修复师”。通过谨慎地清理数据、在多个尺度上理解形状，并特别关注边缘与曲率，该方法能够在避免过度平滑或变形结果的同时，合理地重建建筑的缺失部分。对于策展人、建筑师和历史学家而言，这意味着用于研究、保护规划和公众展览的更可靠虚拟模型，包括可透视查看复杂木构架的沉浸式视图。该方法并不能替代实物保护，但为在数字领域保存和探索脆弱文化遗产的几何形态提供了强有力的工具。

引用: Li, W., Pan, J., Hasegawa, K. et al. Multiscale voxel feature fusion network for large scale noisy point cloud completion in cultural heritage restoration. npj Herit. Sci. 14, 93 (2026). https://doi.org/10.1038/s40494-026-02331-y

关键词: 3D 点云, 文化遗产, LiDAR 扫描, 深度学习, 数字修复