Clear Sky Science · it

Apprendimento contrastivo morbido e smussato con memoria ibrida per la ri-identificazione non supervisionata visibile-infrarosso di persone

2026-03-17 · Torna all'indice

Vedere le persone al buio

Le città moderne sono coperte di telecamere, ma molte di queste faticano di notte o in condizioni meteo avverse. Le telecamere a infrarossi, che rilevano il calore invece della luce visibile, possono colmare questa lacuna. La sfida è insegnare ai computer a riconoscere la stessa persona quando appare molto diversa a una telecamera diurna rispetto a una sensibile al calore, e farlo senza che esperti umani etichettino migliaia di immagini di esempio. Questo studio propone un nuovo modo per apprendere automaticamente tali corrispondenze, rendendo più pratici i sistemi di sicurezza attivi 24 ore su 24 e attenti alla privacy.

Riconoscere le persone attraverso due mondi molto diversi

La ri-identificazione visibile-infrarosso di persone pone una domanda apparentemente semplice: data una persona vista da una normale telecamera a colori, riusciamo a trovare la stessa persona nelle riprese di una telecamera a infrarossi, o viceversa? In realtà, i due tipi di immagine differiscono per colore, contrasto e dettaglio, quindi la descrizione interna che il computer costruisce di una persona può divergere tra i tipi di telecamera. I sistemi precedenti spesso si basavano su grandi set di immagini etichettate a mano, in cui esseri umani indicavano con cura quali foto mostravano la stessa persona. Questo è costoso e lento, soprattutto per reti multi-camera in spazi ampi come campus, aeroporti o isolati cittadini.

Apprendere senza etichette umane

Gli autori si concentrano sulla versione più difficile, “non supervisionata”, del problema, in cui non sono fornite etichette di identità di riferimento. Invece, il sistema raggruppa inizialmente le immagini che appaiono simili in cluster, trattando ogni cluster come se fosse una persona. Queste identità ipotetiche sono chiamate pseudo-etichette. Alimentano una strategia di addestramento popolare nota come apprendimento contrastivo, in cui il modello avvicina le immagini dello stesso cluster nella sua rappresentazione interna e allontana i cluster diversi. Ma il clustering è tutt’altro che perfetto: persone con abiti simili possono essere confuse e il divario tra viste visibili e infrarosse introduce ulteriori errori. Una volta che questi errori vengono incorporati nell’addestramento, possono fuorviare il modello e ridurne l’affidabilità.

Smussare le ipotesi rumorose

Per dominare queste pseudo-etichette errate, l’articolo introduce uno schema di apprendimento contrastivo “soft smooth” che usa due reti neurali cooperanti, uno studente e un insegnante. Lo studente viene aggiornato nel modo usuale durante l’addestramento, mentre l’insegnante è una media a movimento lento dei parametri dello studente. Per ogni immagine, l’insegnante produce una valutazione in stile probabilistico e morbida di quanto essa si adatti a ciascun cluster, invece di una decisione netta sì/no. Questa valutazione soft viene poi miscelata con l’assegnazione più rigida dello studente. Il risultato è un bersaglio smussato che attenua le decisioni incerte e aumenta l’influenza di quelle più affidabili. In pratica, il modello impara a fidarsi delle tendenze graduali nel tempo invece di reagire in modo brusco a ogni aggiornamento rumoroso.

Ricordare differenze e punti in comune

La seconda idea chiave è una “memoria ibrida” che conserva ciò che il sistema ha appreso finora. I metodi convenzionali mantengono memorie separate per le immagini visibili e per quelle infrarosse, il che tiene traccia delle differenze ma rende difficile estrarre ciò che è condiviso tra i due domini. Qui, gli autori conservano queste due memorie e costruiscono anche una terza: una memoria miscelata che combina gli esempi visibili e infrarossi più simili. Questa memoria ibrida funge da luogo d’incontro, incoraggiando la rete a scoprire caratteristiche di una persona stabili attraverso condizioni di illuminazione e sensori differenti, come la forma complessiva del corpo o la disposizione degli abiti piuttosto che il colore. Un terzo componente, l’aggiornamento adattivo dei pesi della memoria, dà più influenza agli esempi insoliti ma affidabili e meno a quelli ambigui, così la memoria si evolve verso rappresentazioni più nette e globalmente utili.

Mettere il metodo alla prova

Il team valuta il loro approccio, chiamato Soft Smooth Contrastive Learning with Hybrid Memory (SCLHM), su tre dataset ampiamente usati che includono sia riprese visibili sia infrarosse raccolte da più telecamere in contesti realistici. Confrontano il loro sistema con molti metodi esistenti, inclusi alcuni che utilizzano etichettatura umana completa e altri che lavorano con etichette parziali o senza alcuna etichetta. In generale, SCLHM raggiunge prestazioni allo stato dell’arte tra gli approcci senza etichette e, in diversi casi, si avvicina o addirittura rivaleggia con metodi che si basano su annotazioni manuali. Esperimenti aggiuntivi mostrano che ciascuno dei tre elementi—smussamento soft, memoria ibrida e aggiornamento adattivo—contribuisce in modo significativo all’accuratezza finale.

Visione più chiara a tutte le ore

Per il lettore generale, il messaggio centrale è che gli autori hanno costruito un modo per far sì che i computer si insegnino a riconoscere persone tra telecamere diurne e notturne senza richiedere agli umani di identificare chi è chi. Smussando le ipotesi inaffidabili e combinando con cura ciò che è unico per ciascun tipo di telecamera con ciò che condividono, il loro quadro apprende pattern più stabili e generali. Questo rende il tracciamento delle persone in ambienti complessi e poco illuminati più accurato e scalabile, con potenziali benefici per la sicurezza, la gestione del traffico e altre applicazioni che dipendono da un rilevamento visivo affidabile 24 ore su 24.

Citazione: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Parole chiave: ri-identificazione di persone, imaging infrarosso, apprendimento non supervisionato, apprendimento contrastivo, sorveglianza