Clear Sky Science · sv
Prototyporienterad kontrastiv mean-teacher för osupervised domänanpassad objektdetektion
Lära datorer att upptäcka objekt på nya platser
Moderna AI-system kan hitta bilar, människor och trafikskyltar i foton med imponerande noggrannhet—tills miljön ändras. En detektor som tränats på soliga stadsgator kan få problem i dimma, på natten eller i stiliserad konst. Denna artikel presenterar ett nytt sätt att ”lära läraren” i dessa system så att de kan anpassa sig till nya förhållanden utan att kräva nya handritade rutor från människor.

Varför objektdetektorer har svårt när världen förändras
Objektdetektion bygger på stora samlingar av märkta bilder där varje bil, buss eller cykel noggrant är inramad. Men verkliga kameror matchar sällan dessa träningsförhållanden. Olika väder, ljusförhållanden eller kameratyper förändrar objektens utseende—ett fenomen som kallas domänskifte. När det inträffar kan detektorer som tränats i en domän, till exempel klara dagtids trafikscener, misslyckas kraftigt i en annan, som dimmiga motorvägar eller nattkörning. Att samla nya etiketter för varje nytt förhållande är dyrt, så forskare söker metoder som anpassar detektorer med endast omärkta data från den nya domänen.
Ett själv‑undervisande system med en inbyggd guide
En populär strategi låter modellen undervisa sig själv. Ett ”teacher”-nätverk, byggt som en utjämnad version av ett ”student”-nätverk, förutsäger rutor på omärkta målbilder; dessa förutsägelser, kallade pseudo‑etiketter, används sedan för att träna studenten. Med tiden förbättras studenten och läraren uppdateras som ett rörligt medelvärde av studentens vikter. Men om tidiga pseudo‑etiketter är felaktiga—till exempel missar objekt i tät dimma—kan felen ackumuleras. Författarna visar att tre idéer kan kombineras för att stabilisera denna självträning: en mean‑teacher‑uppställning, kontrastiv inlärning (som drar samman relaterade features och skjuter andra ifrån varandra), och kompakta ”prototyper” som sammanfattar varje objektkategori.
Prototyper som landmärken i feature‑rymden
Kärnan i det föreslagna PoCoMT‑ramverket är Prototype Alignment Network, eller ProtoAN. Istället för att jämföra varje objekt med varje annat objekt, lär ProtoAN sig en liten uppsättning representativa punkter—prototyper—för varje kategori, såsom bil eller fotgängare. Features extraherade från bildregioner mappas till ett särskilt utrymme där exempel av samma kategori från olika domäner samlas kring sin gemensamma prototyp, medan olika kategorier skjuts isär. En kontrastiv förlust uppmuntrar denna klustring, både inom en enskild domän och över käll- och mål‑domäner. Viktigt är att denna mekanism även behandlar bakgrunden som en egen kategori, vilket hjälper systemet att skilja verkliga objekt från bråkig bakgrund.

Att bättre utnyttja omärkta data
PoCoMT förbättrar lärarens pseudo‑etiketter på två sätt. För det första förskjuter ett mål för ”informationsmaximering” förutsägelser på målbilden så att de både blir säkra för varje objekt och varierade över kategorier, vilket undviker det triviala beteendet att märka allt som samma klass. För det andra förfinar ProtoAN pseudo‑etiketterna genom att jämföra features med prototyper istället för att lita på råa förutsägelser. Om en regions förutsagda klass inte matchar närmaste prototyp kan etiketten justeras. Detta gör systemet mer toleranter mot brus: även när författarna avsiktligt korrupta många pseudo‑etiketter under träning försämrades PoCoMT mer gradvis än konkurrerande metoder.
Starkare detektorer för tuffa verklighetsscener
Testad på ett brett batteri av benchmarks—inklusive klara till dimmiga gator, syntetiskt till verkligt trafikmaterial, dag till skymning och realistiska till konstnärliga bilder—överskred PoCoMT konsekvent befintliga tekniker för osupervised domänanpassning, ofta med flera procentenheter i detektionsnoggrannhet. I vissa fall överträffade den till och med modeller tränade direkt på märkta måldata, tack vare dess förmåga att utnyttja både märkta källbilder och rikligt med omärkta målbilder. För icke‑specialister är budskapet enkelt: genom att låta en objektdetektor organisera sina egna interna ”landmärken” för varje kategori och genom att noggrant styra hur teacher och student utbyter information, gör detta tillvägagångssätt AI‑visionsystem mer robust när världen ser annorlunda ut än deras träningsdata.
Citering: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7
Nyckelord: osupervised domänanpassning, objektdetektion, självträning, kontrastiv inlärning, prototypinlärning