Clear Sky Science · zh

M3SFormer：用于壁画图像修复的多阶段语义与风格融合变换器

2026-01-28 · 返回目录

让褪色的墙面艺术重获生机

在中国的寺庙和洞窟中，古老的壁画与卷轴画正缓慢剥落——颜料起翘、面容缺失，整幅场景随时光流逝而消失。保护修复人员越来越依赖数字工具，既能安全地研究这些作品，也能想象它们曾经的面貌。本文提出了 M3SFormer，一种专为“修补”受损壁画与传统绘画设计的新型人工智能系统，能在保持原有结构、色彩与艺术风格的前提下，填补缺失区域。

为什么古壁画如此难以修复

修复历史性墙面绘画比修补家庭照片要困难得多。壁画通常包含密集的图案、细腻的笔触，以及人物、服饰与背景之间突兀的色彩边界。早期的深度学习方法，尤其是基于标准卷积神经网络的方法，能应对小擦痕，但在大面积缺失时就显得力不从心：它们可能模糊关键线条、编造与周围图像冲突的形状，或抹去赋予壁画特色的强烈对比。其他方法则过度压缩图像信息，丢弃了保护者最关心的高频细节——细小裂缝、发丝状纹理和织物纹理等。

三阶段的数字修复流程

M3SFormer 以由粗到细的多阶段流水线应对这些挑战。首先，全局结构推理步骤将图像划分为小块，并使用变换器（最初为语言建模而开发）来理解壁画中远处部分之间的关联。通过在不依赖粗量化导致信息流失的情况下建模长程关联，这一阶段建立了壁画结构的详尽全局蓝图。接着，语义—风格一致性阶段引入两类高层引导：将图像分割为有意义的区域（如面部、袍服或背景），并借助预训练网络学习各区域的典型纹理与色彩。最后，流场引导的精化阶段将修复视为逐步演化，使用学习到的“速度场”在多个小步骤中将初始猜测朝视觉上连贯的最终结果推进。

让结构与风格和谐并存

该工作的一项核心思想是：内容与风格必须并行处理但不可混淆。模型的语义组件基于一种强大的分割系统 Mask2Former，告诉网络场景中不同元素的边界位置。在此之上，风格组件通过在多个尺度上对特征模式（通过 Gram 矩阵）进行分层比较，衡量修复区域在每个语义区域中与原作的相似程度。这使系统能够对人物面部与花纹袍服或多云天空分别处理，而不是施加一种会抹平局部差异的全局风格规则。在精化阶段，语义掩码像护栏一样约束流场，确保填补的像素以与结构和风格一致的方式演化。

将方法付诸考验

为评估 M3SFormer 在现实场景中的表现，作者汇集了两个大型数据集：一个来自多个地区的中国壁画集，另一个为传统山水画集。他们使用基于真实裂缝与缺失碎片建模的掩码模拟损毁，然后将该方法与七种最先进的替代方案比较，涵盖基于变换器和扩散的系统。在图像质量、结构相似性和感知真实感的标准度量上，M3SFormer 一直名列前茅，尤其在缺损区域既大又复杂时表现突出。视觉对比显示，它避免了许多竞品常见的模糊、奇异色块与噪点，同时在实际使用中仍具备可接受的运行速度。

局限、经验与未来可能性

尽管具有优势，M3SFormer 并非万能良方。面对极大缺失区域或高度复杂的图案时，它仍可能幻化出与历史事实冲突的细节——这是对修复者的重要警示：在可合理重建与臆测之间需始终保持谨慎。作者建议未来版本应纳入明确的提示，如草图或简短文本描述，以约束模型的“想象”。即便存在这些注意事项，该方法仍为博物馆与研究者提供了强大的新工具：以风格忠实的方式生成详尽的数字重建、无损地探索“若干恢复”方案，并帮助确保脆弱的文化珍品在原始颜料褪色后仍能被研究与欣赏。

引用: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w

关键词: 数字壁画修复, 图像修补, 文化遗产, 变换器模型, 艺术保护