Clear Sky Science · sv

Semantisk segmentering av Buddhas ansiktspunktmoln genom kunskapsstyrd regionväxt

2026-02-18 · Tillbaka till index

Att läsa historiens ansikte

Buddhastatyer uthuggna i klippor och tempelväggar är mer än vackra konstverk — de är tredimensionella register över religiös tro, konstnärliga modetrender och kulturellt utbyte över århundraden. Denna studie visar hur datavetare och kulturarvsexperter kan ”läsa” dessa stenansikten i detalj genom att automatiskt separera ögon, näsa, mun och andra detaljer från täta 3D-mätningar, även när det saknas etikettade exempel att lära sig från. Målet är att förvandla tyst sten till mätbar data som hjälper historiker att jämföra stilar, följa förändringar över tid och planera varsam konservering.

Varför digitala ansikten spelar roll

På berömda platser som Dunhuang, Yungang och Longmen skiljer sig Buddhas ansikten subtilt mellan dynastier och regioner — vissa fylligare, andra mer slanka, vissa med mjukare ögon eller mer framträdande näsor. Traditionellt beskriver konsthistoriker dessa skillnader med blotta ögat; nu fångar högprecisions 3D-skanningar statyernas yta som miljontals punkter i rummet. Men dessa punktmoln är röriga: de saknar färg eller textur och ger ingen inbyggd ledtråd om var ögonen slutar och kinderna börjar. Befintliga automatiska metoder kräver antingen många handmärkta träningsexempel, som helt enkelt inte finns för kulturarvsstatyer, eller så delar de upp ytor rent geometriskt och ignorerar de skulpturregler som konstnärerna faktiskt följde.

Att lära algoritmer ansiktsreglerna

I stället för att försöka lära från knappa data utgår författarna från den kunskap som skulptörerna själva använde. Traditionella buddhistiska manualer beskriver standardiserade ansiktsproportioner, såsom att dela ansiktet i lika tredjedelar för panna, näsa och haka, och att hålla dragen symmetriska kring en central axel. Forskarlaget översätter denna kulturella och anatomiska know-how till enkla geometriska regler: ett symmetriplan mitt fram; en vertikal linje som löper genom näsans centrum; och proportioner som kopplar samman positioner och storlekar för ögon, näsa, mun, öron och haka. Dessa regler är inte stela mallar: de innehåller justerbara parametrar så att både fylligare Tang-stilansikten och mer slanka Song-stilansikten får plats inom en flexibel men igenkännbar ram.

Att växa regioner från frön

Utifrån en rengjord 3D-skanning riktar metoden först in Buddhas ansikte så att det blickar rakt fram och projicerar sedan ytan på ett kvadratiskt rutnät, vilket förvandlar 3D-formen till något som liknar en skuggad höjdkarta. Inom detta rutnät väljer algoritmen startpositioner — ”frön” — för varje ansiktsdrag, med hjälp av de föreliggande reglerna: näsfröet ligger nära den centrala vertikallinjen och en lokal höjdpunkt, ögonen placeras vid symmetriska toppar på var sin sida, munnen ligger nedanför näsan i en grund fördjupning, och så vidare. Från varje frö ”växer” datorn en region utåt och lägger bara till intilliggande celler när deras höjd och lutning stämmer med vad man förväntar sig för exempelvis en näsrygg snarare än en kind. Ytterligare steg städar upp resultatet, trimmar bort lösa bitar, fyller små luckor och mjukar försiktigt upp konturer så att de segmenterade ögonen, läpparna och hakan framstår som kontinuerliga och trovärdiga både för datorn och en mänsklig expert.

Att testa metoden

Teamet prövade sitt angreppssätt på femton Buddhaansikten — nio syntetiska modeller med kontrollerade former och sex verkliga skanningar från välkända kinesiska kulturarvsplatser. De mätte kvalitet genom hur väl de automatiskt segmenterade regionerna överlappade med noggranna handritade konturer från specialister och hur nära de beräknade gränserna matchade experternas linjer. För ögon, ögonbryn, öron, näsa, mun och haka uppnådde metoden höga poäng, vilket betyder att de flesta punkterna korrekt tilldelades rätt detalj. Viktigt är att resultaten var stabila över olika huggstilar och nivåer av ytslitage. När författarna jämförde sitt tillvägagångssätt med en populär djupinlärningsmodell tränad med bara några få märkta exempel hade den datahungriga nätverket stora svårigheter, medan den kunskapsstyrda metoden förblev noggrann utan att behöva stora träningssatser.

Vad detta betyder för kulturarvet

Genom att koda in skulptörernas traditionella mätregler i en modern algoritm visar denna studie att datorer kan segmentera Buddhas ansikten i 3D med liten eller ingen manuell märkning, samtidigt som de respekterar det kulturella logiken i originalverket. För historiker öppnar detta dörren för systematiska, kvantitativa jämförelser av ansiktsstilar mellan platser och epoker; för konservatorer erbjuder det ett precist sätt att övervaka skador eller vägleda digital restaurering. I grunden förvandlar metoden århundraden gamla konventioner om det ideala Buddhaansiktet till ett praktiskt verktyg för att läsa, bevara och förstå de stenansikten som vaktat tempel och grottor i mer än tusen år.

Citering: Wei, S., Hou, M., Yang, S. et al. Semantic segmentation of Buddha facial point clouds through knowledge-guided region growing. npj Herit. Sci. 14, 109 (2026). https://doi.org/10.1038/s40494-026-02377-y

Nyckelord: Buddhastaty 3D-skanning, digitalisering av kulturarv, punktmolnssegmentering, ansiktsproportioner i konst, kunskapsstyrda algoritmer