Clear Sky Science · fr

Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection

· Retour à l’index

Apprendre aux ordinateurs à repérer des objets dans de nouveaux environnements

Les systèmes d’IA modernes repèrent voitures, piétons et panneaux de signalisation dans les photos avec une précision impressionnante — jusqu’à ce que le décor change. Un détecteur entraîné sur des rues ensoleillées peut buter dans le brouillard, la nuit ou dans des œuvres stylisées. Cet article présente une nouvelle manière de « former le professeur » au sein de ces systèmes pour qu’ils s’adaptent seuls à de nouvelles conditions sans nécessiter de nouvelles boîtes dessinées à la main par des humains.

Figure 1
Figure 1.

Pourquoi les détecteurs d’objets peinent quand le monde change

La détection d’objets repose sur d’immenses collections d’images étiquetées où chaque voiture, bus ou vélo est soigneusement encadré. Mais les caméras réelles correspondent rarement à ces conditions d’entraînement. Des temps différents, un éclairage ou des types de caméra différents modifient l’apparence des objets — un phénomène connu sous le nom de décalage de domaine. Dans ce cas, des détecteurs entraînés sur un domaine, comme des scènes de circulation claires en journée, peuvent mal fonctionner sur un autre, comme des autoroutes embrumées ou des trajets nocturnes. Recueillir de nouvelles annotations pour chaque condition est coûteux, aussi les chercheurs cherchent-ils des méthodes qui adaptent les détecteurs en n’utilisant que des données non étiquetées du nouveau domaine.

Un système d’auto‑apprentissage avec un guide intégré

Une stratégie populaire laisse le modèle s’enseigner lui‑même. Un réseau « professeur », conçu comme une version lissée du réseau « étudiant », prédit des boîtes sur des images cibles non étiquetées ; ces prédictions, appelées pseudo‑étiquettes, servent ensuite à entraîner l’étudiant. Au fil du temps, l’étudiant s’améliore et le professeur est mis à jour comme la moyenne mobile des poids de l’étudiant. Cependant, si les premières pseudo‑étiquettes sont erronées — des objets manqués dans un brouillard épais, par exemple — les erreurs peuvent se compenser et s’amplifier. Les auteurs montrent que trois idées peuvent être combinées pour stabiliser cet auto‑entraînement : un dispositif mean‑teacher, l’apprentissage contrastif (qui rapproche les caractéristiques liées et éloigne les autres) et des « prototypes » compacts qui résument chaque catégorie d’objet.

Les prototypes comme repères dans l’espace des caractéristiques

Le cœur du cadre proposé PoCoMT est le Prototype Alignment Network, ou ProtoAN. Plutôt que de comparer chaque objet à tous les autres, ProtoAN apprend un petit ensemble de points représentatifs — des prototypes — pour chaque catégorie, comme voiture ou piéton. Les caractéristiques extraites des régions d’image sont projetées dans un espace spécial où des exemples de la même catégorie issus de domaines différents se regroupent autour de leur prototype commun, tandis que les catégories distinctes sont écartées. Une perte contrastive encourage ce regroupement, à la fois au sein d’un même domaine et entre domaines source et cible. Crucialement, ce mécanisme considère même l’arrière‑plan comme sa propre catégorie, aidant le système à distinguer les objets réels du désordre visuel.

Figure 2
Figure 2.

Mieux exploiter les données non étiquetées

PoCoMT améliore les pseudo‑étiquettes du professeur de deux manières. D’abord, un objectif d’« maximisation de l’information » encourage les prédictions sur les images cibles à être à la fois confiantes pour chaque objet et diversifiées entre les catégories, évitant le comportement trivial qui consiste à tout étiqueter comme la même classe. Ensuite, ProtoAN affine les pseudo‑étiquettes en comparant les caractéristiques aux prototypes plutôt qu’en se fiant aux seules prédictions brutes. Si la classe prédite pour une région ne correspond pas au prototype le plus proche, l’étiquette peut être ajustée. Cela rend le système plus tolérant au bruit : même lorsque les auteurs ont volontairement corrompu de nombreuses pseudo‑étiquettes pendant l’entraînement, PoCoMT se dégradait plus progressivement que les méthodes concurrentes.

Des détecteurs plus robustes pour des scènes réelles difficiles

Évalué sur une large batterie de benchmarks — y compris rues claires vers rues embrumées, synthétique vers réel, conduite de jour vers crépuscule, et images réalistes vers artistiques — PoCoMT a systématiquement dépassé les techniques existantes d’adaptation de domaine non supervisée, souvent de plusieurs points de pourcentage en précision de détection. Dans certains cas, il a même surpassé des modèles entraînés directement sur des données cibles étiquetées, grâce à sa capacité à tirer parti à la fois d’images sources étiquetées et d’un grand nombre d’images cibles non étiquetées. Pour les non‑spécialistes, le message est simple : en laissant un détecteur d’objets organiser ses propres « repères » internes pour chaque catégorie et en guidant soigneusement l’échange d’informations entre professeur et étudiant, cette approche rend les systèmes de vision par IA plus robustes lorsque le monde diffère des données d’entraînement.

Citation: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

Mots-clés: adaptation de domaine non supervisée, détection d'objets, auto-apprentissage, apprentissage contrastif, apprentissage par prototypes