Clear Sky Science · nl

M3SFormer: multi-stage semantisch en stijl-gecombineerd transformer voor wandmuurschildering inpainting

· Terug naar het overzicht

Verbleekte wandkunst weer tot leven brengen

In tempels en grotten in China brokkelen oude muurschilderingen en rollen-schilderingen langzaam uiteen—verbladderde pigmenten, ontbrekende gezichten en hele taferelen verloren door de tand des tijds. Restauratoren vertrouwen steeds vaker op digitale hulpmiddelen, zowel om deze werken veilig te bestuderen als om zich voor te stellen hoe ze er ooit uitzagen. Dit artikel introduceert M3SFormer, een nieuw kunstmatig-intelligentiesysteem dat specifiek is ontworpen om beschadigde muurschilderingen en traditionele schilderijen te "inpainten": ontbrekende delen invullen terwijl het trouw blijft aan de oorspronkelijke structuur, kleuren en artistieke stijl.

Figure 1
Figure 1.

Waarom oude muurschilderingen zo moeilijk te herstellen zijn

Het herstellen van historische wandschilderingen is veel veeleisender dan het bijwerken van een familiefoto. Muurschilderingen bevatten vaak dichte patronen, fijne penseelvoering en scherpe kleurgrenzen tussen figuren, kleding en achtergrond. Eerdere deep-learningmethoden, vooral die op standaard convolutionele neurale netwerken, werken goed bij kleine krasjes maar schieten tekort wanneer grote stukken ontbreken. Ze kunnen belangrijke contouren vervagen, vormen verzinnen die niet passen bij de omgeving, of dramatische contrasten wegsoepelen die de schildering karakter geven. Andere benaderingen comprimeren beeldinformatie te agressief en gooien juist de hoogfrequente details weg—fijne scheurtjes, haarlijnen, textuur van stoffen—waar behoudsdeskundigen het meest om geven.

Een driedelig digitaal restauratieproces

M3SFormer pakt deze uitdagingen aan met een coarse-to-fine, multi-stage pijplijn. Eerst verdeelt een stap voor Global Structure Reasoning het beeld in kleine patches en gebruikt een transformer—een model oorspronkelijk ontwikkeld voor taal—om te begrijpen hoe verre delen van de muurschildering zich tot elkaar verhouden. Door langeafstandrelaties te modelleren zonder het gebruikelijke informatieverlies door zware kwantisatie, bouwt deze fase een gedetailleerd, globaal blauwdruk van de structuur. Vervolgens brengt een Semantic–Stylistic Consistency-fase twee vormen van hoog-niveau begeleiding in: het segmenteert het beeld in betekenisvolle regio’s (zoals gezichten, gewaden of achtergrond) en leert, met een voorgetraind netwerk, de karakteristieke texturen en kleuren van elk gebied. Ten slotte behandelt een Flow-Guided Refinement-fase restauratie als een geleidelijke evolutie: met een geleerd “velocity field” wordt de initiële gok in meerdere kleine stappen naar een visueel coherent eindresultaat gestuurd.

Figure 2
Figure 2.

Structuur en stijl in harmonie houden

Een centraal idee is dat inhoud en stijl samen moeten worden behandeld, maar niet verward. De semantische component van het model, gebaseerd op een krachtig segmentatiesysteem bekend als Mask2Former, vertelt het netwerk waar verschillende elementen van de scène beginnen en eindigen. Daarboven meet de stijlcomponent hoe nauw de herstelde regio’s overeenkomen met het origineel in elk semantisch gebied, door middel van een gelaagde vergelijking van feature-patronen (via Gram-matrices) over meerdere schalen. Dit stelt het systeem in staat om het gezicht van een figuur anders te behandelen dan een gedecoreerd gewaad of een bewolkte lucht, in plaats van één globale stijregel toe te passen die lokale verschillen zou wegwassen. In de verfijningsfase fungeren semantische maskers als vangrails voor het flow-veld, waardoor ingevulde pixels evolueren op manieren die consistent blijven met zowel structuur als stijl.

De methode op de proef gesteld

Om te beoordelen hoe goed M3SFormer werkt in realistische omstandigheden, stelden de auteurs twee grote datasets samen: één van Chinese muurschilderingen uit verschillende regio’s en een andere van traditionele landschapsschilderijen. Ze simuleerden schade met maskers die gebaseerd waren op echte scheuren en ontbrekende fragmenten, en vergeleken hun methode met zeven state-of-the-art alternatieven, waaronder zowel transformer- als diffusie-gebaseerde systemen. Over standaardmaatstaven voor beeldkwaliteit, structurele gelijkenis en perceptuele realiteit scoorde M3SFormer consequent het beste, vooral wanneer het beschadigde gebied groot en complex was. Visuele vergelijkingen tonen dat het vervaging, vreemde kleurvlekken en ruisige spikkels vermijdt die veel concurrerende methoden teisteren, terwijl het nog steeds praktisch snel genoeg draait voor gebruik in de echte wereld.

Beperkingen, lessen en toekomstmogelijkheden

Ondanks zijn sterke punten is M3SFormer geen magische oplossing voor alles. Bij zeer grote ontbrekende gebieden of hoogst complexe motieven kan het nog steeds details hallucineren die niet stroken met historische realiteit—een belangrijke waarschuwing voor restauratoren die altijd de grens tussen plausibele reconstructie en speculatie in de gaten moeten houden. De auteurs suggereren dat toekomstige versies expliciete aanwijzingen zouden moeten opnemen, zoals schetsen of korte tekstbeschrijvingen, om de verbeelding van het model te verankeren. Zelfs met deze kanttekeningen biedt de aanpak een krachtig nieuw gereedschap voor musea en onderzoekers: een manier om gedetailleerde, stijlgetrouwe digitale reconstructies te genereren, niet-invasief “wat-als”-restauraties te verkennen en bij te dragen aan de bestendiging van kwetsbare culturele schatten zodat ze bestudeerd en gewaardeerd kunnen worden lang nadat de originele pigmenten zijn vervaagd.

Bronvermelding: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w

Trefwoorden: digitale muurschilderingrestauratie, beeldinpainting, cultureel erfgoed, transformermodels, kunstbehoud