Clear Sky Science · fr
M3SFormer : transformeur multi-étapes fusionnant sémantique et style pour la restauration d’images de peintures murales
Redonner vie à l’art mural effacé
Dans les temples et les grottes de Chine, les peintures murales et les rouleaux anciens se délabrent lentement — pigments qui s’écaille(nt), visages manquants et scènes entières perdues avec le temps. Les restaurateurs s’appuient de plus en plus sur des outils numériques pour étudier ces œuvres en toute sécurité et imaginer leur apparence originelle. Cet article présente M3SFormer, un nouveau système d’intelligence artificielle conçu spécifiquement pour « inpa_inter » les peintures murales et peintures traditionnelles endommagées, comblant les zones manquantes tout en respectant la structure, les couleurs et le style artistique d’origine.

Pourquoi les vieilles peintures murales sont si difficiles à restaurer
Restaurer des peintures murales historiques est bien plus exigeant que réparer une photo de famille. Les murs présentent souvent des motifs denses, un travail de pinceau délicat et des frontières de couleur abruptes entre personnages, vêtements et arrière-plan. Les méthodes d’apprentissage profond antérieures, notamment celles basées sur des réseaux de neurones convolutifs standard, fonctionnent pour de petites rayures mais échouent lorsque de larges parties sont manquantes. Elles peuvent estomper des traits importants, inventer des formes en conflit avec l’imagerie environnante ou lisser les contrastes dramatiques qui font le caractère des fresques. D’autres approches compressent l’information visuelle de façon trop agressive, éliminant les plus hautes fréquences — fines fissures, traits minces, textures textiles — auxquelles les conservateurs accordent la plus grande importance.
Une chaîne de restauration numérique en trois étapes
M3SFormer relève ces défis avec un pipeline multi-étapes, du grossier au fin. D’abord, une étape de Raisonnement de structure globale divise l’image en petits patchs et utilise un transformeur — un modèle initialement développé pour le langage — pour comprendre comment les parties éloignées de la peinture murale se relient entre elles. En modélisant les connexions à longue portée sans la perte d’information habituelle liée à une forte quantification, cette étape construit un plan global détaillé de la structure de la fresque. Ensuite, une étape de Consistence sémantique–stylistique apporte deux types de guidage de haut niveau : elle segmente l’image en régions signifiantes (comme visages, robes ou arrière-plan) et, grâce à un réseau pré-entraîné, apprend les textures et couleurs caractéristiques de chaque région. Enfin, une étape de Raffinement guidé par flux considère la restauration comme une évolution progressive, utilisant un « champ de vitesse » appris pour pousser l’estimation initiale vers un résultat final visuellement cohérent au fil de plusieurs petites étapes.

Concilier structure et style
L’idée centrale du travail est que contenu et style doivent être traités ensemble sans être confondus. La composante sémantique du modèle, basée sur un système de segmentation puissant connu sous le nom de Mask2Former, indique au réseau où commencent et se terminent les différents éléments de la scène. Par-dessus cela, la composante style mesure dans quelle mesure les zones restaurées correspondent à l’original dans chaque région sémantique, en utilisant une comparaison en couches des motifs de caractéristiques (via des matrices de Gram) à plusieurs échelles. Cela permet au système de traiter différemment un visage, une robe à motifs ou un ciel nuageux, au lieu d’appliquer une règle stylistique globale qui estomperait les différences locales. Lors du stade de raffinement, les masques sémantiques agissent comme des garde-fous pour le champ de flux, garantissant que les pixels reconstitués évoluent d’une manière cohérente avec la fois la structure et le style.
Mettre la méthode à l’épreuve
Pour évaluer M3SFormer dans des conditions réalistes, les auteurs ont assemblé deux grands ensembles de données : l’un de peintures murales chinoises de plusieurs régions et l’autre de peintures paysagères traditionnelles. Ils ont simulé les dommages à l’aide de masques inspirés de fissures et de fragments manquants réels, puis ont comparé leur méthode à sept alternatives à la pointe, incluant des systèmes basés sur des transformeurs et des modèles de diffusion. Sur des mesures standards de qualité d’image, de similarité structurelle et de réalisme perceptuel, M3SFormer arrive systématiquement en tête, notamment lorsque la zone endommagée est grande et complexe. Les comparaisons visuelles montrent qu’il évite le flou, les taches de couleur étranges et les grainages bruyants qui affectent de nombreuses méthodes concurrentes, tout en restant suffisamment rapide pour un usage concret.
Limites, enseignements et perspectives
Malgré ses atouts, M3SFormer n’est pas une panacée. Confronté à des régions manquantes très étendues ou à des motifs extrêmement complexes, il peut encore halluciner des détails en conflit avec la réalité historique — un avertissement important pour les restaurateurs, qui doivent toujours garder la limite entre reconstruction plausible et spéculation en tête. Les auteurs suggèrent que de futures versions devraient incorporer des invites explicites, telles que des croquis ou de brèves descriptions textuelles, pour ancrer l’imagination du modèle. Même avec ces réserves, l’approche offre un nouvel outil puissant pour les musées et les chercheurs : un moyen de générer des reconstructions numériques détaillées et fidèles au style, d’explorer des restaurations « et si » sans intervention invasive, et d’aider à préserver et apprécier des trésors culturels fragiles longtemps après que les pigments originels se soient estompés.
Citation: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w
Mots-clés: restauration numérique de peintures murales, inpainting d’image, patrimoine culturel, modèles transformeurs, conservation d’art