Clear Sky Science · nl

Intelligente herkenning van geborduurde portemonnaipatronen: vergelijking van de YOLO‑serie en RT‑DETR

2026-04-16 · Terug naar het overzicht

Waarom oude geborduurde portemonnees vandaag relevant zijn

In heel China droegen kleine geborduurde portemonnees vroeger kruiden, amuletten en wensen voor geluk. Tegenwoordig overleven veel exemplaren alleen nog in museumladen en particuliere verzamelingen. Elk klein gestikt bloempje of draakje bevat verhalen over geloof, mode en dagelijks leven. Het digitaliseren en catalogiseren van deze rijk versierde voorwerpen met de hand is echter uitermate tijdrovend. Deze studie onderzoekt hoe moderne kunstmatige intelligentie automatisch de patronen op deze portemonnees kan herkennen, waardoor musea en gemeenschappen een belangrijk deel van het immateriële cultureel erfgoed in het digitale tijdperk kunnen bewaren.

Van hand en oog naar slimme herkenning

Traditioneel identificeerden experts portemonneeontwerpen door foto’s nauwkeurig te bestuderen en naslagwerken te raadplegen. Die aanpak schaalt niet naar tienduizenden objecten verspreid over archieven. De onderzoekers stelden in plaats daarvan een gespecialiseerde beeldverzameling samen van 783 geborduurde portemonnees afkomstig uit boeken en het digitale archief van een groot museum. Ze definieerden acht veelvoorkomende motiefcategorieën – waaronder planten en bloemen, vogels en dieren, insecten en waterleven, landschappen en gebouwen, symbolen en karakters, figuren en verhalen, artefacten en antiek, en geometrische patronen – en tekenden vervolgens nauwkeurig vakjes rond elk patroon in elke afbeelding. Om het kleine formaat van de dataset te compenseren, spiegelden, roteerden, verhelderden, verduisterden en vervaagden ze de beelden digitaal, waarmee het trainingsmateriaal meer dan verviervoudigde terwijl labels zowel met software als met erfgoedexperts werden gecontroleerd.

Populaire AI‑hulpmiddelen aan de tand gevoeld

Met deze samengestelde dataset vergeleek het team twee families van objectdetectiesystemen. De ene familie, bekend als YOLO, wordt veel gebruikt voor snelle taken zoals het spotten van voetgangers of auto’s in video. Deze modellen bekijken de afbeelding in één doorgang en vertrouwen sterk op lokale patches. De andere, een nieuwere opzet genaamd RT‑DETR, combineert conventionele beeldfilters met transformer‑achtige aandacht, die kleine steken kan koppelen aan de algehele scène. De auteurs stemden eerst verschillende YOLO‑varianten af en kozen YOLOv5m als een sterke referentie. Die presteerde redelijk goed op sommige categorieën – vooral complexe verhalende scènes die vallen onder “Figuren en Verhalen” – maar had moeite wanneer motieven klein waren, sterk overlapt of in de achtergrond vervaagden. In zulke gevallen verdwenen bloemen, werden geometrische randen verkeerd gelezen en werden delen van de afbeelding ten onrechte als lege achtergrond gelabeld.

Hoe een hybride transformer de steken ziet

De onderzoekers richtten zich vervolgens op het verbeteren van RT‑DETR voor deze ongebruikelijke visuele uitdaging. Ze vervingen de standaard backbone door ConvNeXt‑Large, een modern convolutioneel netwerk dat ontworpen is om fijne texturen vast te leggen terwijl het toch het grotere geheel ziet. Ze namen ook een trainingsstrategie over die Focal Loss heet, waarmee het model extra aandacht krijgt voor moeilijke, gemakkelijk te verwarren voorbeelden in plaats van te leunen op de makkelijke. Binnen RT‑DETR worden kenmerken uit de portemonneefoto op meerdere schalen geëxtraheerd en samengesmolten, terwijl een aandachtmechanisme verre maar gerelateerde gebieden koppelt, zoals bij elkaar horende dierenparen of herhalende randen. Door zorgvuldige ablatietests en stapsgewijze afstemming van leerschema’s en regularisatie kwamen de auteurs tot een geoptimaliseerde configuratie die nauwkeurigheid en stabiliteit in balans brengt over veel trainingsruns.

Wat het verbeterde systeem daadwerkelijk bereikt

Gemeten met standaard objectdetectie‑scores overtrof de verbeterde RT‑DETR duidelijk de YOLO‑modellen. De belangrijkste nauwkeurigheidsmaat, mAP@0.5, bereikte 0,5433 – ongeveer 33% verbetering ten opzichte van de YOLOv5m‑baseline – met statistieken die aangeven dat deze winst waarschijnlijk geen toeval is. Het systeem deed het bijzonder goed op ingewikkelde verhalende scènes, met een gemiddelde precisie van 0,833 voor “Figuren en Verhalen”, en herstelde veel motieven die YOLO miste, met name in schaarse of ondervertegenwoordigde categorieën zoals landschappen en geometrische randen. Het bleek ook consistenter over herhaalde experimenten, wat duidt op betrouwbaar gedrag in plaats van fragiele overfitting aan één enkele train–test‑split. De afweging is omvang: het beste RT‑DETR‑model is veel groter en zwaarder dan zijn YOLO‑tegenhangers, wat inzet op lichte apparaten kan beperken.

Wat dit betekent voor cultureel erfgoed

Voor niet‑specialisten is de kernboodschap dat computers niet alleen leren auto's en gezichten te vinden, maar ook de taal van traditioneel ambacht te lezen. Door aan te tonen dat een transformer‑gebaseerde detector, zorgvuldig aangepast en getraind, dichte, overlappende borduurmotieven nauwkeuriger kan herkennen dan populaire realtime‑modellen, legt dit werk een benchmark voor toekomstige hulpmiddelen. Musea en culturele instellingen zouden dergelijke systemen uiteindelijk kunnen gebruiken om enorme fotocollecties op motief te doorzoeken, te volgen hoe bepaalde symbolen zich ontwikkelden, of ambachtslieden te helpen bij het nieuw leven inblazen van oude ontwerpen. De auteurs benadrukken dat de prestaties nog steeds matig zijn en dat verdere verfijningen – waaronder lichtere modellen en de toevoeging van culturele kennis en tekstbeschrijvingen – nodig zijn voordat grootschalige inzet mogelijk is. Desondanks markeert de studie een belangrijke stap naar intelligente, respectvolle digitale zorg voor het erfgoed van geborduurde portemonnees.

Bronvermelding: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Trefwoorden: herkenning van borduurpatronen, immaterieel cultureel erfgoed, objectdetectie, vision gebaseerd op transformers, digitale conservering