Clear Sky Science · es
M3SFormer: transformador multi-etapa que fusiona semántica y estilo para la restauración por inpainting de imágenes de murales
Devolver la vida al arte mural desvanecido
En templos y cuevas de China, los murales y las pinturas tradicionales se desmoronan lentamente: pigmento que se desprende, rostros desaparecidos y escenas enteras perdidas con el tiempo. Los conservadores recurren cada vez más a herramientas digitales, tanto para estudiar estas obras de forma segura como para imaginar cómo lucían originalmente. Este artículo presenta M3SFormer, un nuevo sistema de inteligencia artificial diseñado específicamente para «inpaint» murales y pinturas tradicionales dañadas, rellenando regiones faltantes mientras se mantiene fiel a la estructura, los colores y el estilo artístico originales.

Por qué es tan difícil arreglar los murales antiguos
Restaurar pinturas murales históricas exige mucho más que reparar una fotografía familiar. Los murales suelen contener patrones densos, pinceladas delicadas y límites de color bruscos entre figuras, ropajes y fondo. Los métodos anteriores de aprendizaje profundo, en especial los basados en redes neuronales convolucionales estándar, funcionan bien para rasguños pequeños pero flaquean cuando faltan grandes porciones. Pueden difuminar líneas importantes, inventar formas que chocan con la imaginería circundante o suavizar los contrastes dramáticos que dan carácter al mural. Otros enfoques comprimen la información de la imagen de forma demasiado agresiva, descartando los detalles de muy alta frecuencia—grietas finas, líneas capilares, texturas textiles—que más preocupan a los conservadores.
Una canalización de restauración digital en tres etapas
M3SFormer afronta estos retos con una canalización multi-etapa de lo general a lo fino. Primero, un paso de Razonamiento de Estructura Global divide la imagen en pequeños parches y utiliza un transformer—un modelo desarrollado originalmente para lenguaje—para entender cómo se relacionan entre sí las partes distantes del mural. Al modelar conexiones de largo alcance sin la habitual pérdida de información por cuantización agresiva, esta etapa construye un plano detallado y global de la estructura del mural. A continuación, una etapa de Consistencia Semántico–Estilística incorpora dos tipos de orientación de alto nivel: segmenta la imagen en regiones significativas (como rostros, túnicas o fondo) y, mediante una red preentrenada, aprende las texturas y colores característicos de cada región. Finalmente, una etapa de Refinamiento Guiado por Flujo trata la restauración como una evolución gradual, usando un “campo de velocidad” aprendido para empujar la estimación inicial hacia un resultado final visualmente coherente a lo largo de varios pasos pequeños.

Mantener la armonía entre estructura y estilo
Una idea central del trabajo es que el contenido y el estilo deben gestionarse conjuntamente pero sin confundirse. El componente semántico del modelo, basado en un potente sistema de segmentación conocido como Mask2Former, indica a la red dónde comienzan y terminan los distintos elementos de la escena. Sobre esto, el componente de estilo mide cuán de cerca las regiones restauradas se ajustan al original en cada área semántica, usando una comparación por capas de patrones de características (mediante matrices Gram) a múltiples escalas. Esto permite al sistema tratar el rostro de una figura de forma distinta a una túnica con motivos o a un cielo nuboso, en lugar de aplicar una regla estilística global que borraría las diferencias locales. En la etapa de refinamiento, las máscaras semánticas actúan como barandillas para el campo de flujo, asegurando que los píxeles rellenados evolucionen de maneras consistentes con la estructura y el estilo.
Poner el método a prueba
Para evaluar el rendimiento de M3SFormer en escenarios realistas, los autores reunieron dos grandes conjuntos de datos: uno de murales chinos de varias regiones y otro de pinturas tradicionales de paisajes. Simularon daños utilizando máscaras modeladas a partir de grietas reales y fragmentos faltantes, y luego compararon su método con siete alternativas de vanguardia, que incluyen sistemas basados tanto en transformers como en difusión. En medidas estándar de calidad de imagen, similitud estructural y realismo perceptual, M3SFormer se impuso de forma consistente, especialmente cuando el área dañada era grande y compleja. Las comparaciones visuales muestran que evita el desenfoque, parches de color extraños y motas ruidosas que afectan a muchos métodos competidores, manteniendo además una velocidad práctica para su uso en el mundo real.
Límites, lecciones y posibilidades futuras
A pesar de sus virtudes, M3SFormer no es una cura mágica para todo. Cuando se enfrenta a regiones faltantes muy extensas o diseños extremadamente intrincados, todavía puede alucinar detalles que chocan con la realidad histórica—una advertencia importante para los conservadores, que siempre deben marcar la línea entre reconstrucción plausible y especulación. Los autores sugieren que versiones futuras deberían incorporar indicaciones explícitas, como bocetos o breves descripciones textuales, para anclar la imaginación del modelo. Incluso con estas salvedades, el enfoque ofrece un nuevo e poderoso conjunto de herramientas para museos e investigadores: una forma de generar reconstrucciones digitales detalladas y fieles al estilo, explorar restauraciones “qué pasaría si” de manera no invasiva y ayudar a garantizar que los frágiles tesoros culturales puedan estudiarse y apreciarse mucho después de que los pigmentos originales se hayan desvanecido.
Cita: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w
Palabras clave: restauración digital de murales, inpainting de imágenes, patrimonio cultural, modelos transformer, conservación del arte