Clear Sky Science · zh
M3SFormer:用于壁画图像修复的多阶段语义与风格融合变换器
让褪色的墙面艺术重获生机
在中国的寺庙和洞窟中,古老的壁画与卷轴画正缓慢剥落——颜料起翘、面容缺失,整幅场景随时光流逝而消失。保护修复人员越来越依赖数字工具,既能安全地研究这些作品,也能想象它们曾经的面貌。本文提出了 M3SFormer,一种专为“修补”受损壁画与传统绘画设计的新型人工智能系统,能在保持原有结构、色彩与艺术风格的前提下,填补缺失区域。

为什么古壁画如此难以修复
修复历史性墙面绘画比修补家庭照片要困难得多。壁画通常包含密集的图案、细腻的笔触,以及人物、服饰与背景之间突兀的色彩边界。早期的深度学习方法,尤其是基于标准卷积神经网络的方法,能应对小擦痕,但在大面积缺失时就显得力不从心:它们可能模糊关键线条、编造与周围图像冲突的形状,或抹去赋予壁画特色的强烈对比。其他方法则过度压缩图像信息,丢弃了保护者最关心的高频细节——细小裂缝、发丝状纹理和织物纹理等。
三阶段的数字修复流程
M3SFormer 以由粗到细的多阶段流水线应对这些挑战。首先,全局结构推理步骤将图像划分为小块,并使用变换器(最初为语言建模而开发)来理解壁画中远处部分之间的关联。通过在不依赖粗量化导致信息流失的情况下建模长程关联,这一阶段建立了壁画结构的详尽全局蓝图。接着,语义—风格一致性阶段引入两类高层引导:将图像分割为有意义的区域(如面部、袍服或背景),并借助预训练网络学习各区域的典型纹理与色彩。最后,流场引导的精化阶段将修复视为逐步演化,使用学习到的“速度场”在多个小步骤中将初始猜测朝视觉上连贯的最终结果推进。

让结构与风格和谐并存
该工作的一项核心思想是:内容与风格必须并行处理但不可混淆。模型的语义组件基于一种强大的分割系统 Mask2Former,告诉网络场景中不同元素的边界位置。在此之上,风格组件通过在多个尺度上对特征模式(通过 Gram 矩阵)进行分层比较,衡量修复区域在每个语义区域中与原作的相似程度。这使系统能够对人物面部与花纹袍服或多云天空分别处理,而不是施加一种会抹平局部差异的全局风格规则。在精化阶段,语义掩码像护栏一样约束流场,确保填补的像素以与结构和风格一致的方式演化。
将方法付诸考验
为评估 M3SFormer 在现实场景中的表现,作者汇集了两个大型数据集:一个来自多个地区的中国壁画集,另一个为传统山水画集。他们使用基于真实裂缝与缺失碎片建模的掩码模拟损毁,然后将该方法与七种最先进的替代方案比较,涵盖基于变换器和扩散的系统。在图像质量、结构相似性和感知真实感的标准度量上,M3SFormer 一直名列前茅,尤其在缺损区域既大又复杂时表现突出。视觉对比显示,它避免了许多竞品常见的模糊、奇异色块与噪点,同时在实际使用中仍具备可接受的运行速度。
局限、经验与未来可能性
尽管具有优势,M3SFormer 并非万能良方。面对极大缺失区域或高度复杂的图案时,它仍可能幻化出与历史事实冲突的细节——这是对修复者的重要警示:在可合理重建与臆测之间需始终保持谨慎。作者建议未来版本应纳入明确的提示,如草图或简短文本描述,以约束模型的“想象”。即便存在这些注意事项,该方法仍为博物馆与研究者提供了强大的新工具:以风格忠实的方式生成详尽的数字重建、无损地探索“若干恢复”方案,并帮助确保脆弱的文化珍品在原始颜料褪色后仍能被研究与欣赏。
引用: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w
关键词: 数字壁画修复, 图像修补, 文化遗产, 变换器模型, 艺术保护