Clear Sky Science · it

Riconoscimento intelligente dei motivi su borsette ricamate: confronto tra la serie YOLO e RT-DETR

· Torna all'indice

Perché le vecchie borsette ricamate contano ancora oggi

In tutta la Cina, piccole borsette ricamate un tempo contenevano erbe, amuleti e auguri di buona fortuna. Oggi molte sopravvivono solo in cassetti di musei e collezioni private. Ogni minuscolo fiore o drago cucito codifica storie su credenze, moda e vita quotidiana. Tuttavia digitalizzare e catalogare a mano questi oggetti riccamente decorati è un processo dolorosamente lento. Questo studio esplora come l’intelligenza artificiale moderna possa riconoscere automaticamente i motivi su queste borsette, aiutando musei e comunità a preservare un filone importante del patrimonio culturale immateriale nell’era digitale.

Figure 1
Figure 1.

Dall’occhio umano al riconoscimento intelligente

Tradizionalmente, gli esperti identificavano i disegni delle borsette ispezionando fotografie e consultando testi di riferimento. Questo approccio non è scalabile per decine di migliaia di pezzi sparsi negli archivi. I ricercatori hanno quindi assemblato una collezione di immagini specializzata di 783 borsette ricamate tratte da libri e dall’archivio digitale di un grande museo. Hanno definito otto categorie di motivo comuni – tra cui piante e fiori, uccelli e bestie, insetti e vita acquatica, paesaggi e edifici, simboli e caratteri, figure e racconti, manufatti e oggetti d’antiquariato, e motivi geometrici – quindi hanno tracciato con cura riquadri attorno a ciascun motivo in ogni immagine. Per contrastare le dimensioni ridotte del dataset, hanno capovolto digitalmente, ruotato, schiarito, scurito e sfocato le immagini, espandendo il materiale di addestramento più di quattro volte e verificando le etichette con software e esperti di patrimonio culturale.

Mettere alla prova strumenti di IA popolari

Con questo dataset curato, il team ha confrontato due famiglie di sistemi di rilevamento di oggetti. Una famiglia, nota come YOLO, è ampiamente usata per compiti rapidi come individuare pedoni o auto nei video. Questi modelli analizzano l’immagine in un solo passaggio e fanno forte affidamento su patch locali. L’altra, un’architettura più recente chiamata RT-DETR, combina filtri d’immagine convenzionali con attenzione in stile transformer, che può mettere in relazione punti minuti con la scena complessiva. Gli autori hanno innanzitutto ottimizzato diverse varianti di YOLO e scelto YOLOv5m come solido baseline. Questo modello ha funzionato ragionevolmente bene in alcune categorie – in particolare scene narrative complesse raggruppate sotto “Figure e racconti” – ma ha mostrato difficoltà quando i motivi erano piccoli, fortemente sovrapposti o confusi con lo sfondo. In tali casi i fiori potevano scomparire, i bordi geometrici venivano interpretati male e porzioni dell’immagine venivano etichettate erroneamente come sfondo vuoto.

Come un ibrido transformer vede i punti di cucitura

I ricercatori si sono poi concentrati sull’ottimizzazione di RT-DETR per questa sfida visiva particolare. Hanno sostituito il backbone standard con ConvNeXt-Large, una rete convoluzionale moderna progettata per catturare texture fini pur mantenendo la visione d’insieme. Hanno inoltre adottato una strategia di addestramento chiamata Focal Loss, che spinge il modello a prestare maggiore attenzione agli esempi difficili e facilmente confondibili invece di accontentarsi dei casi semplici. All’interno di RT-DETR, le caratteristiche estratte dall’immagine della borsetta vengono ottenute a più scale e fuse, mentre un meccanismo di attenzione collega regioni distanti ma correlate, come coppie di animali corrispondenti o bordi ripetuti. Attraverso studi di ablazione accurati e un affinamento passo dopo passo dei piani di apprendimento e della regolarizzazione, gli autori sono giunti a una configurazione ottimizzata che bilancia accuratezza e stabilità su molteplici cicli di addestramento.

Figure 2
Figure 2.

Cosa ottiene realmente il sistema migliorato

Misurato con punteggi standard per il rilevamento di oggetti, l’RT-DETR potenziato ha chiaramente superato i modelli YOLO. La sua metrica principale di accuratezza, mAP@0.5, ha raggiunto 0.5433 – circa il 33% in più rispetto al baseline YOLOv5m – con analisi statistiche che indicano che questo guadagno è poco probabile sia dovuto al caso. Il sistema ha dato risultati particolarmente buoni nelle scene narrative intricate, ottenendo una precisione media di 0.833 per “Figure e racconti”, e ha recuperato molti motivi che YOLO aveva perso, in particolare in categorie scarse o poco rappresentate come paesaggi e bordi geometrici. Si è inoltre dimostrato più consistente attraverso esperimenti ripetuti, indicando un comportamento affidabile piuttosto che un fragile overfitting su una singola divisione train–test. Il compromesso è la dimensione: il miglior modello RT-DETR è molto più grande e pesante dei corrispettivi YOLO, il che potrebbe limitarne la distribuzione su dispositivi leggeri.

Cosa significa per il patrimonio culturale

Per i non specialisti, il messaggio chiave è che i computer stanno imparando non solo a trovare auto e volti, ma a leggere il linguaggio dell’artigianato tradizionale. Dimostrando che un rilevatore basato su transformer, accuratamente adattato e addestrato, può individuare motivi ricamati densi e sovrapposti in modo più accurato rispetto ai modelli in tempo reale più diffusi, questo lavoro stabilisce un riferimento per gli strumenti futuri. Musei e istituzioni culturali potrebbero usare sistemi del genere per cercare grandi collezioni fotografiche per motivo, tracciare l’evoluzione di certi simboli o aiutare gli artigiani a recuperare vecchi disegni. Gli autori sottolineano che le prestazioni sono ancora moderate e che sono necessari ulteriori perfezionamenti – inclusi modelli più leggeri e l’integrazione di conoscenze culturali e descrizioni testuali – prima di un’adozione su larga scala. Nonostante ciò, lo studio rappresenta un passo significativo verso una gestione digitale intelligente e rispettosa del patrimonio delle borsette ricamate.

Citazione: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Parole chiave: riconoscimento dei motivi ricamati, patrimonio culturale immateriale, rilevamento di oggetti, vision basata su transformer, conservazione digitale