Clear Sky Science · nl

Prototype-georiënteerde contrastieve mean-teacher voor ongecontroleerde domeinaanpassing bij objectdetectie

· Terug naar het overzicht

Computers leren objecten te herkennen op nieuwe locaties

Moderne AI-systemen kunnen met indrukwekkende nauwkeurigheid auto’s, mensen en verkeersborden in foto’s vinden — totdat het decor verandert. Een detector die getraind is op zonnige stadsstraten kan struikelen in mist, ’s nachts of in gestileerde kunst. Dit artikel introduceert een nieuwe manier om de “leraar” binnen deze systemen te trainen, zodat ze zichzelf kunnen aanpassen aan nieuwe omstandigheden zonder dat daar nieuwe met de hand getekende vakjes van mensen voor nodig zijn.

Figure 1
Figure 1.

Waarom objectdetectoren het moeilijk hebben als de wereld verandert

Objectdetectie steunt op grote verzamelingen gelabelde afbeeldingen waarin elke auto, bus of fiets zorgvuldig is ingekaderd. Maar echte camera’s komen zelden overeen met die trainingsomstandigheden. Verschillende weersomstandigheden, verlichting of cameratypes veranderen het uiterlijk van objecten — een fenomeen dat bekendstaat als domeinsverschuiving. Wanneer dat gebeurt, kunnen detectors die op één domein zijn getraind, zoals heldere dagtaferelen in het verkeer, sterk falen in een ander domein, zoals mistige snelwegen of nachtelijke ritten. Nieuwe labels verzamelen voor elke nieuwe situatie is duur, dus onderzoekers zoeken naar methoden die detectors laten adaptëren met alleen ongelabelde data uit het nieuwe domein.

Een zelflerend systeem met een ingebouwde gids

Een populaire strategie laat het model zichzelf onderwijzen. Een “teacher”-netwerk, gebouwd als een gesmoothed versie van een “student”-netwerk, voorspelt vakjes op ongelabelde doelfoto’s; die voorspellingen, pseudo-labels genoemd, trainen vervolgens de student. Naarmate de tijd vordert, verbetert de student en wordt de teacher geüpdatet als een bewegend gemiddelde van de studentgewichten. Echter, als vroege pseudo-labels fout zijn — bijvoorbeeld missende objecten in dichte mist — kunnen fouten zich opstapelen. De auteurs tonen aan dat drie ideeën gecombineerd kunnen worden om deze zelftraining te stabiliseren: een mean-teacher opzet, contrastief leren (dat gerelateerde kenmerken samenbrengt en andere uit elkaar duwt), en compacte “prototypes” die elke objectcategorie samenvatten.

Prototypes als herkenningspunten in feature-ruimte

De kern van het voorgestelde PoCoMT-framework is het Prototype Alignment Network, of ProtoAN. In plaats van elk object met elk ander object te vergelijken, leert ProtoAN een kleine set representatieve punten — prototypes — voor elke categorie, zoals auto of voetganger. Kenmerken die uit afbeeldingsregio’s worden gehaald, worden in een speciale ruimte gemapt waar voorbeelden van dezelfde categorie uit verschillende domeinen zich rond hun gedeelde prototype verzamelen, terwijl verschillende categorieën uit elkaar worden geduwd. Een contrastieve verliesfunctie moedigt deze clustering aan, zowel binnen een enkel domein als over bron- en doeldomeinen heen. Cruciaal is dat dit mechanisme zelfs de achtergrond als een eigen categorie behandelt, wat het systeem helpt echte objecten van rommel te onderscheiden.

Figure 2
Figure 2.

Betere benutting van ongelabelde data

PoCoMT verbetert de pseudo-labels van de teacher op twee manieren. Ten eerste zorgt een doelstelling van “informatievergroting” ervoor dat voorspellingen op doelfoto’s zowel zelfverzekerd per object als divers over categorieën zijn, waardoor het triviale gedrag om alles als dezelfde klasse te labelen wordt vermeden. Ten tweede verfijnt ProtoAN pseudo-labels door kenmerken met prototypes te vergelijken in plaats van ruwe voorspellingen blind te vertrouwen. Als de voorspelde klasse van een regio niet overeenkomt met het dichtstbijzijnde prototype, kan het label worden aangepast. Dit maakt het systeem toleranter voor ruis: zelfs wanneer de auteurs opzettelijk veel pseudo-labels tijdens training corrumpeerden, degradeerde PoCoMT langzamer en geleidelijker dan concurrerende methoden.

Sterkere detectors voor zware, realistische scènes

Getest op een breed scala aan benchmarks — waaronder helder-naar-mistige straten, synthetisch-naar-echt verkeer, dag-naar-schemer rijden, en realistisch-naar-artistieke beelden — overtrof PoCoMT consequent bestaande technieken voor ongecontroleerde domeinaanpassing, vaak met meerdere procentpunten in detectienauwkeurigheid. In sommige gevallen presteerde het zelfs beter dan modellen die direct op gelabelde doeldata waren getraind, dankzij het vermogen zowel gelabelde bronafbeeldingen als overvloedige ongelabelde doelafbeeldingen te benutten. Voor niet-specialisten is de boodschap eenvoudig: door een objectdetector zijn eigen interne “herkenningspunten” per categorie te laten organiseren en zorgvuldig te sturen hoe teacher en student informatie uitwisselen, maakt deze aanpak AI-visiesystemen robuuster wanneer de wereld er anders uitziet dan de trainingsdata.

Bronvermelding: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

Trefwoorden: ongecontroleerde domeinaanpassing, objectdetectie, zelftraining, contrastief leren, prototype leren