Clear Sky Science · sv

Intelligent igenkänning av broderade börsmönster: jämförelse mellan YOLO-serien och RT-DETR

2026-04-16 · Tillbaka till index

Varför gamla broderade börsar spelar roll idag

I hela Kina bar man förr små broderade börsar med örter, amuletter och önskningar om lycka. Idag finns många kvar endast i museumslådor och privata samlingar. Varje liten stygnad blomma eller drake rymmer berättelser om trosföreställningar, mode och vardagsliv. Att digitalisera och katalogisera dessa rikt dekorerade föremål för hand går dock oerhört långsamt. Denna studie undersöker hur modern artificiell intelligens kan känna igen mönstren på dessa börsar automatiskt, och därmed hjälpa museer och samhällen att bevara en viktig del av det immateriella kulturarvet i den digitala eran.

Från hand och öga till smart igenkänning

Traditionellt identifierade experter börsmönster genom noggrann granskning av fotografier och genom att konsultera referenslitteratur. Den metoden skalar inte till tiotusentals objekt spridda i arkiven. Forskarna satte därför ihop ett specialiserat bildarkiv med 783 broderade börsar hämtade ur böcker och en stor museums digitala samling. De definierade åtta vanliga motivkategorier – bland annat växter och blommor, fåglar och fyrbenta djur, insekter och vattenlevande liv, landskap och byggnader, symboler och tecken, figurer och berättelser, föremål och antikviteter samt geometriska mönster – och ritade noggrant rutor kring varje motiv i varje bild. För att motverka datasetets begränsade storlek speglade, roterade, ljusade, mörkade och suddade de bilderna digitalt, vilket utökade träningsmaterialet mer än fyra gånger medan etiketter kontrollerades både med mjukvara och kulturarvsexperter.

Att pröva populära AI-verktyg

Med detta kuraterade dataset jämförde teamet två familjer av objektidentifieringssystem. Den ena familjen, känt som YOLO, används ofta för snabba uppgifter som att upptäcka fotgängare eller bilar i video. Dessa modeller betraktar bilden i ett enda svep och förlitar sig starkt på lokala bilddelar. Den andra, en nyare konstruktion kallad RT-DETR, kombinerar konventionella bildfilter med transformerliknande attention, som kan knyta ihop små stygn med den övergripande scenen. Författarna finjusterade flera YOLO-varianter och valde YOLOv5m som en stark referenspunkt. Den presterade rimligt bra i vissa kategorier – särskilt komplexa berättelsescener grupperade under ”Figurer och berättelser” – men hade problem när motiven var små, kraftigt överlappande eller smälte in i bakgrunden. I sådana fall kunde blommor försvinna, geometriska kanter uppfattas fel och delar av bilden felaktigt klassificeras som tom bakgrund.

Hur en hybrid-transformer ser stygnen

Forskarna fokuserade därefter på att uppgradera RT-DETR för denna ovanliga visuella utmaning. De bytte ut dess standardbackbone mot ConvNeXt-Large, ett modernt konvolutionsnätverk utformat för att fånga fina texturer samtidigt som det ser helheten. De antog också en träningsstrategi kallad Focal Loss, som får modellen att lägga extra vikt vid svåra, lätt förväxlade exempel istället för att luta sig mot de enkla. Inuti RT-DETR extraheras funktioner från börsbilden i flera skalor och sammanfogas, medan en attention-mekanism länkar avlägsna men relaterade regioner, till exempel matchande djurpar eller upprepade ramar. Genom noggranna ablationsstudier och stegvisa justeringar av inlärningsscheman och regularisering nådde författarna en optimerad konfiguration som balanserar noggrannhet och stabilitet över många träningskörningar.

Vad det förbättrade systemet faktiskt uppnår

Mätt med standardmått för objektidentifiering överträffade den förbättrade RT-DETR tydligt YOLO-modellerna. Dess huvudmått för noggrannhet, mAP@0.5, nådde 0,5433 – cirka 33 % förbättring jämfört med YOLOv5m-referensen – med statistik som visar att denna förbättring sannolikt inte är en slump. Systemet var särskilt bra på intrikata berättelsescener och uppnådde en medelprecision på 0,833 för ”Figurer och berättelser”, och återfann många motiv som YOLO missade, särskilt i glesa eller underrepresenterade kategorier som landskap och geometriska kanter. Det visade sig också mer konsekvent över upprepade experiment, vilket pekar på pålitligt beteende snarare än bräcklig överanpassning till en enskild tränings-/testuppdelning. Växeln är storleken: den bästa RT-DETR-modellen är mycket större och tyngre än sina YOLO-motsvarigheter, vilket kan begränsa användning på lättviktiga enheter.

Vad detta betyder för kulturarvet

För icke-specialister är huvudbudskapet att datorer inte bara lär sig att hitta bilar och ansikten, utan också att läsa det traditionella hantverkets språk. Genom att visa att en transformerbaserad detektor, noggrant anpassad och tränad, kan plocka ut täta, överlappande broderimotiv mer exakt än populära realtidsmodeller, etablerar detta arbete en referens för framtida verktyg. Museer och kulturinstitutioner skulle så småningom kunna använda sådana system för att söka i stora bildsamlingar efter motiv, följa hur vissa symboler förändrats eller hjälpa hantverkare att återuppliva gamla mönster. Författarna understryker att prestandan fortfarande är måttlig och att ytterligare förbättringar – inklusive lättare modeller samt tillägg av kulturkunskap och textbeskrivningar – behövs innan storskalig implementering. Ändå markerar studien ett viktigt steg mot intelligent, respektfull digital förvaltning av arvet från broderade börsar.

Citering: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Nyckelord: igenkänning av broderimönster, immateriellt kulturarv, objektidentifiering, transformer-baserad vision, digitalt bevarande