Clear Sky Science · it

Algoritmo di rilevamento oggetti basato su meccanismo di attenzione a gruppi a cascata per rifiuti da costruzione e demolizione

· Torna all'indice

Perché la selezione intelligente dei rifiuti è importante

Ogni volta che un edificio viene realizzato o demolito si generano montagne di macerie—pezzi di calcestruzzo, mattoni rotti, piastrelle, legno, metallo e plastica. Questi rifiuti da costruzione e demolizione rappresentano oggi circa il 40% dei rifiuti in molte città. Nelle macerie si nascondono materiali preziosi che potrebbero essere riciclati in nuovi prodotti edilizi, ma gran parte della separazione viene ancora fatta a mano, un processo lento, costoso e pericoloso. Questo articolo presenta un nuovo sistema di visione artificiale in grado di individuare e classificare automaticamente diversi tipi di rifiuti edilizi in tempo reale, anche quando i pezzi sono piccoli, sovrapposti o molto simili tra loro.

Figure 1
Figura 1.

La sfida di trovare ordine in una pila di macerie

Ordinare detriti edilizi misti è sorprendentemente difficile per le macchine. Pezzi di calcestruzzo e di piastrelle, per esempio, condividono spesso colori e texture simili, il che li rende facili da confondere. Nelle scene reali grandi frammenti si trovano accanto a schegge piccole, molti oggetti sono parzialmente nascosti e l’illuminazione o l’angolazione della fotocamera può cambiare l’aspetto dei materiali. I sistemi di intelligenza artificiale precedenti per questo compito o mancavano di precisione, o faticavano con oggetti molto piccoli, o richiedevano potenza di calcolo elevata, poco pratica per le linee di selezione e le attrezzature mobili. Gli autori si concentrano sul miglioramento di una famiglia popolare di modelli rapidi per il rilevamento oggetti, noti come YOLO, per gestire meglio queste scene disordinate e affollate senza rallentare.

Un nuovo modo per la rete di focalizzare l’attenzione

Il cuore del nuovo metodo è un “backbone” riprogettato che elabora le immagini in più stadi, ispirato ai modelli transformer usati in linguaggio e visione. Invece di trattare l’immagine solo in piccole patch locali, la rete impara come regioni distanti siano correlate tra loro, cosa utile quando gli oggetti si sovrappongono o si confondono con lo sfondo. Per farlo in modo efficiente, gli autori introducono un meccanismo di attenzione a gruppi a cascata. Suddividono la rappresentazione interna dell’immagine in gruppi, lasciano che ogni gruppo si concentri sui pattern al suo interno e poi trasferiscono gradualmente informazioni da un gruppo al successivo. Questo schema “prima attenzione locale, poi raffinamento globale” permette al modello di enfatizzare differenze sottili—per esempio tra calcestruzzo e ceramica—mantenendo però memoria e computazione abbastanza contenute per l’uso in tempo reale.

Osservare i rifiuti su più scale contemporaneamente

Oltre a riconoscere i tipi di materiale, il sistema deve anche individuare oggetti di dimensioni molto diverse, da schegge minuscole a grandi travi. Il modello usa quindi più livelli che operano ciascuno a una diversa risoluzione dell’immagine. Un modulo di interazione dedicato permette il flusso di informazioni sia dai livelli grossolani e panoramici verso quelli fini e dettagliati, sia viceversa. I livelli grossolani forniscono il contesto generale—dove sono le pile, come si raggruppano gli oggetti—mentre i livelli fini forniscono bordi nitidi e texture. Un componente di attenzione spaziale evidenzia le regioni più informative a ciascuna scala e sopprime lo sfondo distraente. Infine, rami di rilevamento separati per ogni risoluzione prevedono dove sono gli oggetti e a quale materiale appartengono, con un assetto di addestramento che favorisce il posizionamento preciso delle scatole e un bilanciamento tra trovare molti oggetti ed evitare falsi allarmi.

Figure 2
Figura 2.

Mettere il sistema alla prova

Per valutare il loro approccio, i ricercatori hanno usato due dataset pubblici di rifiuti da costruzione e demolizione. Uno, chiamato BTC, contiene immagini di mattoni, piastrelle e calcestruzzo; l’altro, SWP, si concentra su acciaio, legno e plastiche e include migliaia di immagini ad alta risoluzione. Il team ha confrontato il loro metodo con diverse versioni esistenti dei modelli YOLO adattati per questo compito. Il loro sistema ha raggiunto punteggi di rilevamento nettamente più alti in entrambi i dataset, in particolare nella misura più severa che valuta quanto precisamente le scatole previste si allineano con i contorni reali degli oggetti. Si è dimostrato particolarmente efficace nel mantenere un richiamo molto alto—perdendo quasi nessun oggetto—pur mantenendo il carico computazionale complessivo modesto, competitivo o inferiore a molti modelli concorrenti.

Cosa significa questo per il riciclaggio nel mondo reale

Per i non specialisti, la conclusione principale è che gli autori hanno costruito un “occhio” più intelligente per la selezione dei detriti edilizi, capace di individuare e distinguere materiali riciclabili in scene affollate e caotiche meglio degli strumenti precedenti. Combinando meccanismi di attenzione efficienti con elaborazione multi-scala, il sistema individua pezzi piccoli e sovrapposti con maggiore accuratezza, restando comunque sufficientemente veloce per l’hardware industriale. Rimane qualche confusione tra rifiuto e sfondo, ma la prestazione complessiva è solida e stabile attraverso dataset differenti. A lungo termine, questi progressi potrebbero aiutare gli impianti di riciclaggio a recuperare più materiale prezioso con meno lavoro manuale, ridurre lo smaltimento in discarica e rendere l’industria delle costruzioni più pulita ed efficiente nell’uso delle risorse.

Citazione: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Parole chiave: rilevamento rifiuti da costruzione, visione profonda, riciclo automatizzato, rilevamento oggetti, meccanismi di attenzione