Clear Sky Science · it

Algoritmo di tracciamento degli oggetti basato su meccanismo di attenzione deformabile

2026-03-06 · Torna all'indice

Tenersi informati in un mondo affollato e caotico

Le telecamere moderne osservano strade trafficate, centri commerciali e linee di produzione, ma insegnare ai computer a seguire molte persone e oggetti in movimento in questi scenari è sorprendentemente difficile. Quando qualcuno passa dietro un pilastro, quando i fari abbagliano o quando una folla si infila in una porta, anche i software di tracciamento avanzati possono perdere il bersaglio, confondere le identità o consumare troppa potenza di calcolo. Questo articolo presenta un nuovo approccio al tracciamento progettato per mantenere il fuoco sui target in modo più affidabile in queste situazioni caotiche del mondo reale, pur rimanendo sufficientemente efficiente per un uso pratico.

Perché il tracciamento tradizionale non basta

I sistemi di tracciamento degli oggetti solitamente operano in tre fasi: prima estraggono dettagli visivi da ogni frame video, poi combinano informazioni provenienti da scale e regioni diverse, e infine prevedono come si muoverà ciascun bersaglio nel tempo. Molti metodi recenti hanno migliorato uno di questi passi per volta — per esempio rendendo il rilevatore più accurato, accelerando i calcoli o aggiungendo modelli di movimento più intelligenti. Ma in scene affollate e in rapido cambiamento emergono i limiti nell’integrazione di queste componenti. I “campi visivi” fissi nelle reti standard non si adattano a corpi che si piegano o a pose che cambiano, e la predizione del movimento che assume spostamenti semplici e regolari può deviare pesantemente quando le persone si fermano, girano o scompaiono brevemente dietro ostacoli.

Un occhio flessibile per i target in movimento

Gli autori affrontano questi limiti dotando il sistema di tracciamento di un modo più flessibile di “osservare” la scena. Partono da un backbone di elaborazione delle immagini diffuso, ResNet-18, e vi integrano un meccanismo di attenzione deformabile. Invece di campionare sempre informazioni visive in punti rigidi e uniformemente distribuiti, questo meccanismo impara a spostare le posizioni di campionamento verso le aree più informative di una persona o di un oggetto — per esempio il profilo del torso o della testa — ignorando il rumore di sfondo. Inserendo questa attenzione flessibile negli strati più profondi della rete, il sistema può adattare il proprio focus quando le persone cambiano posa, scala o sono parzialmente nascoste, senza aggiungere un carico computazionale significativo. I test su grandi benchmark mostrano che questo “occhio” flessibile migliora non solo la precisione del tracciamento, ma lo fa con meno dell’8% di aumento del calcolo e solo un piccolo incremento di parametri.

Fondere i dettagli attraverso scale e nel tempo

Tracciare molti oggetti contemporaneamente richiede anche che il sistema comprenda sia i dettagli fini sia il quadro d’insieme. Per farlo, il metodo utilizza un modulo speciale di fusione delle caratteristiche, una piramide di feature bidirezionale, che miscela informazioni da viste grossolane ad alto livello e dettagli fini a basso livello. Gli autori potenziano questo modulo con la stessa idea di attenzione deformabile, permettendogli di allineare meglio le feature che altrimenti potrebbero risultare disallineate quando le persone si sovrappongono o si muovono rapidamente. Ciò aiuta a separare individui in folle dense e riduce le confusioni di identità. Sulla dimensione temporale, l’algoritmo si avvale di uno strumento classico della teoria del controllo, il filtro di Kalman, ma in modo più intelligente. Invece di trattare la predizione del modello come verità primaria e il rilevatore come una piccola correzione, il comportamento del filtro è guidato dalla fiducia che il rilevatore ha in ciascun frame. Quando il rilevatore è sicuro, il sistema si affida direttamente a esso e limita l’accumulo di errore; quando è incerto, il filtro si appoggia maggiormente al movimento passato, fondendo entrambe le fonti in modo fluido.

Quanto funziona bene nel mondo reale?

Il team valuta il proprio approccio — chiamato DAM-Track — su dataset pubblici impegnativi progettati per mettere alla prova gli algoritmi di tracciamento. Nei test su singoli oggetti che enfatizzano sequenze lunghe e situazioni difficili come forti deformazioni e occlusioni complete, il backbone con attenzione deformabile migliora tassi di sovrapposizione e successo rispetto alla ResNet-18 standard, senza un costo aggiuntivo significativo. Su un famoso benchmark multi-oggetto pieno di folle pedonali estremamente dense, DAM-Track raggiunge maggiore accuratezza complessiva, localizzazione più precisa e migliore coerenza delle identità rispetto a metodi largamente usati come ByteTrack e DeepSORT. Mantiene più traiettorie per periodi più lunghi, perde meno target e si distingue particolarmente nell’evitare i cambi di identità, aspetti cruciali per applicazioni come il monitoraggio di sicurezza e l’analisi del traffico.

Cosa significa per le applicazioni di tutti i giorni

Per un non-specialista, la conclusione è che questo lavoro rende i tracker di visione artificiale più resilienti nei tipi di scene disordinate e imprevedibili che contano maggiormente nella pratica — dalle stazioni ferroviarie e le vie cittadine ai negozi smart e ai veicoli autonomi. Consentendo allo “sguardo” del sistema di incurvarsi verso regioni importanti e coordinando estrazione delle feature, fusione multi-scala e predizione del moto attraverso una nozione condivisa di fiducia, gli autori costruiscono un tracker a ciclo chiuso che tiene meglio traccia di chi è dove nel tempo. Sebbene siano necessari ulteriori test in condizioni notturne, riprese aeree e scenari multi-camera, questo design flessibile e consapevole della fiducia indica la direzione per una nuova generazione di sistemi di tracciamento in grado di osservare ambienti complessi in modo più affidabile senza richiedere risorse computazionali impraticabili.

Citazione: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x

Parole chiave: tracciamento multi-oggetto, visione artificiale, meccanismi di attenzione, sorveglianza di folle, guida autonoma