Clear Sky Science · sv
Bildklassificering av forntida arkitektur med progressiv staplad pseudoinverslärning
Varför gamla byggnader möter moderna algoritmer
I hela Kina fotograferas tempel och palats med svepande tak och intrikata träkonsoler i stora mängder. Arkivarier och bevarandeföreträdare behöver sortera dessa bilder snabbt, men att göra det för hand är långsamt och subjektivt. Denna artikel presenterar ett nytt sätt att lära datorer att känna igen och klassificera foton av forntida byggnader mer exakt och effektivt, vilket bidrar till att skydda kulturarvet i den digitala tidsåldern.

Vad som gör dessa byggnader svåra att särskilja
Forntida kinesisk arkitektur är rik på upprepande mönster: böjda taklinjer, lager av konsoler under takfoten, snidade bjälkar och färgstark ytdetaljering. Många byggnader delar liknande planlösningar och skiljer sig bara åt i subtila variationer i takets kurva eller konsolernas form. Standardiserade bildigenkänningssystem, som lär sig genom att gradvis justera interna vikter, kan störas av dessa finfördelade skillnader och av distraherande ledtrådar som väggfärg eller belysning. De tenderar också att överanpassa till en region eller stil när de tränas på en stor batch bilder samtidigt, vilket minskar deras förmåga att generalisera till byggnader från andra platser.
En smartare metod för att betrakta nyckeldetaljer
Författarna introducerar ett ramverk kallat bildklassificering av forntida arkitektur med progressiv staplad pseudoinverslärning (AAPSP). I dess kärna finns en modul benämnd key features stacking pseudoinverse learning (KFSP). Istället för att börja från helt slumpmässiga inställningar bygger KFSP flera parallella ”baslärare”, var och en initialiserad med viktmönster utformade för att matcha särskilda visuella drag. Två grenar är finjusterade för att vara särskilt känsliga för mjuka, kontinuerliga strukturer som taksilhuetter, medan en tredje är inställd för att fånga mer spridda texturer som dekorativa motiv. En matematisk genväg känd som pseudoinversinlärning gör det möjligt att träna dessa grenar i praktiken på en gång, vilket undviker de långsamma, stegvisa viktuppdateringarna i traditionell djupinlärning.
Låta modellen fokusera där det spelar roll
Att ha flera grenar räcker inte; systemet måste också avgöra vilken gren som är mest användbar för varje beslut. För detta använder KFSP en uppmärksamhetsmekanism som mäter hur väl varje grens output överensstämmer med de verkliga byggnadsetiketterna. Grupper som bättre fångar kännetecknande element — som formen på ett hinkbågsvalv eller silhuetten av en åsutsmyckning — får automatiskt större inflytande när deras utsignaler kombineras. Denna staplade representation bildar ett funktionsutrymme som bättre följer den underliggande ”formlogiken” i forntida arkitektur, så att byggnader med liknande strukturella komponenter klustras tillsammans och de med olika stilar separeras tydligare.

Lära av de mest informativa fotografierna
Den andra kärnmodulen, progressive optimization learning (POL), tar itu med ett annat problem: redundanta träningsbilder. Många foton i datasetet visar nästan identiska vyer av samma fasad och tillför lite ny information. POL börjar med att dela upp data i en initial träningsuppsättning och en större kandidatpool. Med idéer från aktiv inlärning analyserar den hur säkert den nuvarande modellen klassificerar varje kandidatbild och hur ovanliga dess kännetecken är. Fotografer som både är osäkert klassificerade och särpräglade — såsom sällsynta konsolarrangemang eller ovanliga takkombinationer — flyttas gradvis in i träningssetet. Denna cykel upprepas och berikar stadigt träningsdata med utmanande och varierade exempel utan att öka det totala antalet använda bilder.
Hur väl fungerar det i praktiken
Författarna testade sin metod på en offentlig samling om 2 269 bilder från sex berömda tempel och palats. Efter att endast KFSP tillämpats överträffade systemet redan en jämförbar metod som förlitade sig på helt slumpmässiga projektioner. När POL:s progressiva urval av provexempel lades till förbättrades klassificeringsnoggrannheten ytterligare, och mått som precision, recall och F1-poäng ökade. Med andra ord blev modellen både mer pålitlig i sina korrekta gissningar och bättre på att hitta mindre vanliga kategorier. Studien påpekade också en kvarstående svårighet: klasser med mycket få bilder utgör fortfarande en utmaning, eftersom även en smart lärare har svårt när det finns för lite variation att lära av.
Varför detta betyder något för kulturarvet
Genom att noggrant styra både vad modellen uppmärksammar och vilka bilder den lär sig från erbjuder AAPSP ett mer precist verktyg för att sortera och studera foton av historiska byggnader. För kulturarvsprofessionella innebär detta snabbare skapande av digitala arkiv, bättre stöd för datering och jämförelse av arkitektoniska stilar och mer robust övervakning av platser spridda över olika regioner. Även om metoden är anpassad till kinesisk forntida arkitektur kan dess kärnidéer — att framhäva viktiga strukturella detaljer och successivt fokusera på sällsynta men informativa exempel — anpassas till andra typer av kulturföremål, från skulpturer till historiska stadsbilder.
Citering: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9
Nyckelord: forntida arkitektur, bildklassificering, kulturarv, maskininlärning, aktiv inlärning