Clear Sky Science · it

Insegnamento prototipico contrastivo con mean-teacher per il rilevamento di oggetti in adattamento di dominio non supervisionato

· Torna all'indice

Insegnare ai computer a riconoscere oggetti in nuovi contesti

I moderni sistemi di IA riescono a individuare auto, persone e segnali stradali nelle foto con notevole precisione—fino a quando lo scenario non cambia. Un rivelatore addestrato su strade cittadine soleggiate può incepparsi nella nebbia, di notte o in opere stilizzate. Questo articolo introduce un nuovo modo per “istruire l’insegnante” all’interno di questi sistemi così che possano adattarsi a nuove condizioni senza richiedere nuovi box disegnati a mano dagli esseri umani.

Figure 1
Figure 1.

Perché i rivelatori di oggetti faticano quando il mondo cambia

Il rilevamento di oggetti si basa su vaste raccolte di immagini etichettate dove ogni auto, autobus o bicicletta è accuratamente inquadrata con un riquadro. Ma le telecamere del mondo reale raramente corrispondono a quelle condizioni di addestramento. Differenti condizioni meteorologiche, illuminazione o tipi di fotocamera modificano l’aspetto degli oggetti—un fenomeno noto come spostamento di dominio. Quando ciò accade, i rivelatori addestrati su un dominio, come scene di traffico diurne e limpide, possono fallire in modo significativo su un altro, per esempio autostrade nebbiose o percorsi notturni. Raccogliere nuove etichette per ogni condizione è costoso, perciò i ricercatori cercano metodi che adattino i rivelatori usando soltanto dati non etichettati del nuovo dominio.

Un sistema che si auto-insegna con una guida incorporata

Una strategia popolare permette al modello di insegnare a se stesso. Una rete “insegnante”, costruita come versione smussata di una rete “studente”, predice riquadri su immagini target non etichettate; queste predizioni, chiamate pseudo-etichette, servono poi per addestrare lo studente. Col tempo lo studente migliora e l’insegnante viene aggiornato come media mobile dei pesi dello studente. Tuttavia, se le pseudo-etichette iniziali sono sbagliate—per esempio oggetti mancanti nella fitta nebbia—gli errori possono accumularsi. Gli autori mostrano che tre idee possono essere combinate per stabilizzare questo auto-addestramento: una configurazione mean-teacher, l’apprendimento contrastivo (che avvicina feature correlate e allontana quelle diverse) e prototipi compatti che riassumono ogni categoria di oggetto.

I prototipi come punti di riferimento nello spazio delle feature

Il nucleo del framework PoCoMT proposto è la Prototype Alignment Network, o ProtoAN. Invece di confrontare ogni oggetto con tutti gli altri, ProtoAN apprende un piccolo insieme di punti rappresentativi—prototipi—per ciascuna categoria, come auto o pedone. Le feature estratte dalle regioni delle immagini vengono mappate in uno spazio speciale dove esempi della stessa categoria provenienti da domini diversi si raggruppano attorno al loro prototipo condiviso, mentre categorie diverse vengono separate. Una perdita contrastiva incoraggia questo raggruppamento, sia all’interno di un singolo dominio sia tra dominio sorgente e dominio target. Fondamentalmente, questo meccanismo considera anche lo sfondo come una categoria a sé stante, aiutando il sistema a distinguere i veri oggetti dal rumore di fondo.

Figure 2
Figure 2.

Usare meglio i dati non etichettati

PoCoMT migliora le pseudo-etichette dell’insegnante in due modi. Primo, un obiettivo di “massimizzazione dell’informazione” spinge le predizioni sulle immagini target a essere sia sicure per ogni oggetto sia diversificate tra le categorie, evitando il comportamento banale di etichettare tutto come la stessa classe. Secondo, ProtoAN affina le pseudo-etichette confrontando le feature con i prototipi invece di fidarsi delle predizioni grezze. Se la classe predetta per una regione non corrisponde al prototipo più vicino, l’etichetta può essere corretta. Questo rende il sistema più tollerante al rumore: anche quando gli autori hanno deliberatamente corrotto molte pseudo-etichette durante l’addestramento, PoCoMT ha degradato in modo più graduale rispetto ai metodi concorrenti.

Rivelatori più efficaci per scene del mondo reale difficili

Testato su un’ampia serie di benchmark—tra cui strade da limpido a nebbioso, traffico sintetico a reale, guida giorno a crepuscolo e immagini realistiche a artistiche—PoCoMT ha superato costantemente le tecniche esistenti di adattamento di dominio non supervisionato, spesso di diversi punti percentuali nell’accuratezza di rilevamento. In alcuni casi ha persino superato modelli addestrati direttamente su dati target etichettati, grazie alla sua capacità di sfruttare sia immagini sorgente etichettate sia numerose immagini target non etichettate. Per i non specialisti, il messaggio è chiaro: permettendo a un rivelatore di oggetti di organizzare i propri “punti di riferimento” interni per ogni categoria e guidando con cura come insegnante e studente si scambiano informazioni, questo approccio rende i sistemi di visione artificiale più robusti quando il mondo appare diverso rispetto ai dati di addestramento.

Citazione: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

Parole chiave: adattamento di dominio non supervisionato, rilevamento di oggetti, auto-addestramento, apprendimento contrastivo, apprendimento di prototipi