Clear Sky Science · nl
Fideliteitsgestuurde data-augmentatie voor multimodale grote taalmodellen bij interpretatie van architectonisch erfgoed
Waarom oude gebouwen slimme digitale helpers nodig hebben
In veel historische steden verdwijnen rijk uitgevoerde straatarcades en verweerde gevels of worden ze ingrijpend herbouwd. Deskundigen haasten zich om dit architectonische erfgoed te documenteren en te beschermen, maar het werk is traag en vereist diepe kennis van stijl, constructie en geschiedenis. Deze studie onderzoekt hoe een nieuw type kunstmatige intelligentie — multimodale grote taalmodellen die afbeeldingen kunnen bekijken en tekst kunnen lezen — kan helpen, en welke zorgvuldig samengestelde trainingsdata nodig zijn zodat ze oude gebouwen daadwerkelijk begrijpen in plaats van er slechts naar te raden.

Wanneer AI naar gebouwen kijkt en het fout heeft
De auteurs beginnen met het testen van meerdere toonaangevende AI-systemen op foto’s van historische shophouse-arcades in Guangzhou, China. Deze gebouwen, bekend als Qilou, combineren Chinese en westerse invloeden en vormen lange, aaneengesloten straatgezichten. Specialisten maakten een benchmark van 50 gevelafbeeldingen en duizenden meerkeuzevragen over wat er in elke scène voorkomt: hoeveel verdiepingen een balkon overspant, of bepaalde sierlijke steunen van het ene of het andere type zijn, van welk materiaal de raamkozijnen zijn gemaakt, en hoe schade beoordeeld moet worden. Zelfs de beste commerciële systemen, inclusief enkele van de grootste beschikbare modellen, lezen deze beelden regelmatig verkeerd — ze plaatsen balkons op de verkeerde verdieping, verwarren belangrijke architectonische elementen of noemen moderne aluminium ramen op basis van kleur ‘houten’.
Ontleden hoe mensen een gevel lezen
Om deze fouten te begrijpen brengen de onderzoekers erfgoedinterpretatie terug tot drie mensachtige vaardigheden. De eerste is visuele waarneming: opmerken wat aanwezig is, zoals ramen, kolommen en oppervlaktedetails. De tweede is ruimtelijk redeneren: begrijpen hoe delen van de gevel uitlijnen en zich herhalen, inclusief symmetrie en het verticale en horizontale ritme van openingen. De derde is contextueel redeneren: afleiden wat de staat en geschiedenis van het gebouw impliceren, bijvoorbeeld of afbladderende verf ernstige achteruitgang of slechts lichte slijtage aangeeft. Hun tests tonen aan dat de huidige AI-systemen vooral worstelen met de tweede en derde vaardigheid — precieze ruimtelijke indeling en genuanceerde betekenis — omdat ze zelden zorgvuldig gelabelde erfgoedvoorbeelden hebben gezien tijdens training.
AI leren met gemaakte beelden die toch vertrouwenwekkend zijn
Het simpelweg verzamelen van meer echte foto’s en expertlabels zou extreem kostbaar zijn. In plaats daarvan bouwen de onderzoekers een data-"versterker" die overtuigende synthetische gevelbeelden plus bijbehorende vraag–antwoordparen creëert. Het kernidee is om twee aspecten van een gevel apart te behandelen: het ruimtelijke skelet (de exacte rangschikking en verhoudingen van openingen en ornamenten) en de semantische verschijningsvorm (materialen, historische stijl en verwering). Met een modern beeldgeneratie‑engine voegen ze een gespecialiseerd module toe die de geometrie vastlegt door randkaarten te volgen die van echte gebouwen zijn getekend, en een andere die stilistische details bestuurt via lichte adapters getraind op kleine, coherente stijlgroepen. Door lay-outs en stijlen te mixen en te matchen produceert het systeem meer dan 1.400 nieuwe gevelvarianten uit slechts 208 originelen, terwijl het uiterlijk en gevoel stevig verankerd blijven in echte architectuur.

Controleren of de synthetische wereld overeenkomt met de echte
De auteurs vragen vervolgens: gedragen deze kunstmatige gevels zich als echte erfgoeddata? Ze vergelijken structurele gelijkenis, semantische nabijheid in een geleerd kenmerkenruimte en de beoordelingen van menselijke experts. Kwantitatieve scores tonen dat de op structuur gerichte module de mate waarin de lay-out van synthetische gebouwen overeenkomt met echte voorbeelden sterk verbetert, terwijl de op stijl gerichte module de diversiteit vergroot zonder af te drijven van authentiek regionaal karakter. Deskundige beoordelaars vinden de aangevulde beelden veel plausibeler en stijltrouw dan die van een standaardgenerator en, cruciaal, ze behouden voldoende detail voor betrouwbare vraagbeantwoording over materialen, elementen en schade.
Kleiner afgestemde modellen die grotere algemene verslaan
Gewapend met deze uitgebreide dataset fine‑tunen het team een middelgroot open‑source visueel‑taalmodel en test het vervolgens op gemengde Chinese en Europese gevelbenchmarks. Ondanks veel minder interne parameters dan vooraanstaande commerciële systemen, verslaat het afgestemde model ze nu op bijna alle taaktypen, vooral bij het lezen van symmetrie, tellen en uitlijnen van elementen en het onderscheiden van materialen. Expertreviews van zijn stapsgewijze verklaringen laten een verschuiving zien van wilde “hallucinaties” naar gegrond, gebouwbewust redeneren: het model verwijst naar echte visuele evidentie, past architectonische regels consistenter toe en maakt minder logische sprongen. Analyse van de resterende fouten wijst op nieuwe uitdagingen — zoals betere representatie van perspectivische vervormingen en het coderen van professionele normen voor wanneer zichtbare achteruitgang daadwerkelijk ingrijpen vereist.
Hoe dit helpt historische straten te beschermen
Voor de niet‑specialistische lezer is de diepere boodschap dat meer AI‑kracht alleen niet voldoende is om architectonisch erfgoed te beschermen. Wat minstens even belangrijk is, is de fideliteit en opbouw van de data die we in deze systemen voeren. Door synthetische gevels te genereren die zorgvuldig de geometrie en betekenis van echte gebouwen bewaren, laat deze studie zien hoe een compact, openlijk beschikbaar model een betrouwbaardere partner voor deskundigen kan worden. Zulke systemen zouden uiteindelijk hele wijken kunnen scannen, risicovolle wijzigingen signaleren en op schaal herstelbeslissingen ondersteunen, zodat steden hun onderscheidende historische straatgezichten vitaal kunnen houden te midden van snelle veranderingen.
Bronvermelding: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
Trefwoorden: architectonisch erfgoed, multimodale AI, data-augmentatie, historische gevels, cultureel behoud