Clear Sky Science · sv

Trogenhetsdriven dataaugmentering för multimodala stora språkmodeller vid tolkning av arkitektoniskt kulturarv

2026-03-25 · Tillbaka till index

Varför gamla byggnader behöver smarta digitala hjälpare

I många historiska städer försvinner eller byggs prydliga gatarkader och väderbitna byggnadsfasader om eller rivs helt. Experter tävlar om att dokumentera och skydda detta arkitektoniska kulturarv, men arbetet är långsamt och kräver djup kunskap om stil, konstruktion och historia. Denna studie undersöker hur en ny typ av artificiell intelligens — multimodala stora språkmodeller som kan tolka bilder och text — kan hjälpa, och vilken typ av noggrant utformade träningsdata de behöver för att verkligen förstå gamla byggnader i stället för att bara gissa om dem.

När AI tittar på byggnader och gör fel

Författarna börjar med att testa flera toppmoderna AI-system på fotografier av historiska butikshuskvarter i Guangzhou, Kina. Dessa byggnader, kända som Qilou, blandar kinesiska och västerländska influenser och bildar långa, kontinuerliga gatubilder. Specialister skapade en referensuppsättning med 50 fasadbilder och tusentals flervalsfrågor om vad som syns i varje scen: hur många våningar en balkong spänner över, om vissa dekorativa stöd är av en typ eller annan, vilket material fönsterkarmarna är gjorda av, och hur skador bör bedömas. Även de bästa kommersiella systemen, inklusive några av de största tillgängliga modellerna, misstolkar ofta dessa bilder — placerar balkonger på fel våning, förväxlar viktiga arkitektoniska element eller kallar moderna aluminiumfönster för ”trä” baserat till stor del på färg.

Att bryta ner hur människor läser en fasad

För att förstå dessa fel kartlägger forskarna kulturarvstolkning i tre människoliknande färdigheter. Först visuell perception: att lägga märke till vad som finns, såsom fönster, kolonner och ytmaterial. För det andra spatialt resonemang: att förstå hur delar av fasaden linjerar upp och upprepar sig, inklusive symmetri och det vertikala och horisontella rytmiska mönstret av öppningar. För det tredje kontextuellt resonemang: att avgöra vad byggnadens skick och historia antyder, till exempel om flagnande färg signalerar allvarlig förfall eller bara lätt slitage. Deras tester visar att dagens AI-system särskilt kämpar med de andra och tredje färdigheterna — precis spatial uppställning och nyanserad betydelse — eftersom de sällan sett noggrant märkt kulturarvsmaterial under träningen.

Att lära AI med påhittade bilder som ändå säger sanningen

Att helt enkelt samla fler verkliga foton och expertmärkningar skulle vara extremt kostsamt. Istället bygger teamet en data"förstärkare" som skapar övertygande syntetiska fasadbilder plus matchande fråga–svar-par. Nyckelidén är att behandla två aspekter av en fasad separat: dess spatiala skelett (den exakta ordningen och proportionerna av öppningar och ornament) och dess semantiska karaktär (material, historisk stil och väderbitenhet). Med en modern bildgenereringsmotor tillsätter de en specialiserad modul som låser geometrin genom att följa kantkartor ritade från verkliga byggnader, och en annan som styr stilistiska detaljer via lätta adaptrar tränade på små, koherenta stilgrupper. Genom att mixa och matcha layouter och stilar producerar systemet över 1 400 nya fasadvariationer från bara 208 original, samtidigt som utseende och känsla hålls nära verklig arkitektur.

Kontrollera om den syntetiska världen matchar den verkliga

Författarna frågar sedan: beter sig dessa artificiella fasader som verkliga kulturarvsdata? De jämför strukturell likhet, semantisk närhet i ett inlärt featurespace och bedömningar från mänskliga experter. Kvantitativa mått visar att strukturfokuserade modulen markant förbättrar hur väl layouten hos syntetiska byggnader matchar verkliga exempel, medan stilfokuserade modulen ökar mångfalden utan att glida bort från autentisk regional karaktär. Expertgranskare bedömer de förstärkta bilderna som betydligt mer trovärdiga och stilistiskt trogna än de som producerats av en standardgenerator, och — avgörande — finner att de bevarar tillräckligt med detaljer för pålitliga frågor om material, element och skador.

Mindre finjusterade modeller som presterar bättre än större generella

Utrustade med denna utökade datamängd finjusterar teamet en medelstor öppen källa vision–språk-modell och testar den sedan på blandade kinesiska och europeiska fasadreferenser. Trots att den har långt färre interna parametrar än ledande kommersiella system slår den nu dem i nästan alla uppgiftstyper, särskilt vad gäller att läsa symmetri, räkna och justera element samt att skilja material åt. Expertgranskningar av dess steg-för-steg-förklaringar visar en växling från vilda ”hallucinationer” till mer förankrat, byggnadsmedvetet resonemang: modellen hänvisar till verklig visuell bevisning, tillämpar arkitektoniska regler mer konsekvent och gör färre logiska hopp. Analys av dess kvarvarande misstag pekar på nya utvecklingsområden — såsom bättre representation av perspektivförvrängningar och kodning av professionella standarder för när synligt förfall faktiskt kräver ingripande.

Hur detta hjälper till att skydda historiska gator

För en icke-specialist är det djupare budskapet att mer AI-kraft ensam inte är tillräckligt för att skydda arkitektoniskt kulturarv. Det som spelar minst lika stor roll är troheten och strukturen i de data vi matar in i dessa system. Genom att generera syntetiska fasader som noggrant bevarar geometrin och betydelsen hos verkliga byggnader visar denna studie hur en kompakt, öppet tillgänglig modell kan bli en mer pålitlig partner för experter. Sådana system skulle så småningom kunna skanna hela stadsdelar, flagga riskfyllda förändringar och stödja reparationsbeslut i skala, vilket hjälper städer att bevara sina särpräglade historiska gatubilder i en tid av snabb förändring.

Citering: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2

Nyckelord: arkitektoniskt kulturarv, multimodal AI, dataaugmentering, historiska fasader, kulturellt bevarande