Clear Sky Science · sv

Mjuk jämförande inlärning med hybridminne för osuperviderad synlig-infraröd personåteridentifiering

2026-03-17 · Tillbaka till index

Att se människor i mörkret

Moderna städer är täckta av kameror, men de flesta har svårt att fungera på natten eller i dåligt väder. Infraröda kameror, som känner av värme istället för synligt ljus, kan fylla den luckan. Utmaningen är att lära datorer att känna igen samma person när denne ser mycket annorlunda ut för en dagsljuskamera jämfört med en värmekamera — och att göra det utan att mänskliga experter märker upp tusentals exempelbilder. Den här studien föreslår ett nytt sätt att automatiskt lära sig den här matchningen, vilket gör dygnet-runt, mer integritetsvänliga säkerhetssystem mer genomförbara.

Matcha människor över två mycket olika världar

Synlig–infraröd personåteridentifiering ställer en till synes enkel fråga: givet en person fångad av en vanlig färgkamera, kan vi hitta samma person i inspelningar från en infraröd kamera, eller vice versa? I verkligheten skiljer sig de två bildtyperna i färg, kontrast och detaljrikedom, så datorns interna beskrivning av en person kan glida isär mellan kameratyperna. Tidigare system förlitade sig ofta på stora uppsättningar handmärkta bilder, där människor noggrant angav vilka bilder som föreställde samma individ. Det är dyrt och långsamt, särskilt för nätverk med många kameror i stora områden som campus, flygplatser eller stadsblock.

Lära utan mänskliga etiketter

Författarna fokuserar på den svårare ”osuperviderade” versionen av problemet, där inga sanna identitetsetiketter tillhandahålls. Istället grupperar datorn först bilder som verkar lika i kluster och behandlar varje kluster som om det vore en person. Dessa uppskattade identiteter kallas pseudoetiketter. De driver en populär träningsstrategi känd som kontrastiv inlärning, där modellen drar bilder från samma kluster närmare varandra i sin interna representation och skjuter olika kluster isär. Men klustring är långt ifrån perfekt: personer i liknande kläder kan blandas ihop, och gapet mellan synligt och infrarött tillför ytterligare fel. När dessa felaktiga antaganden väl bakas in i träningen kan de vilseleda modellen och minska dess tillförlitlighet.

Utjämning av brusiga gissningar

För att tämja dessa felaktiga pseudoetiketter introducerar artikeln ett ”soft smooth” kontrastivt inlärningsschema som använder två samverkande neurala nätverk, en student och en lärare. Studenten uppdateras på vanligt sätt under träningen, medan läraren är ett långsamt rörligt medelvärde av studentens parametrar. För varje bild ger läraren en mjuk sannolikhetsliknande bedömning av hur väl den passar varje kluster, snarare än ett hårt ja-eller-nej-beslut. Denna mjuka bedömning blandas sedan med studentens hårdare klustertilldelning. Resultatet är ett utjämnat mål som tonar ner osäkra beslut och ökar inflytandet från mer tillförlitliga. I praktiken lär sig modellen att lita på gradvisa trender över tid istället för att reagera skarpt på varje brusig uppdatering.

Komma ihåg både skillnader och gemensamma drag

Den andra nyckelidén är ett ”hybridminne” som lagrar vad systemet lärt sig hittills. Konventionella metoder upprätthåller separata minnen för synliga och infraröda bilder, vilket fångar skillnader men gör det svårt att destillera vad som delas mellan de två. Här behåller författarna dessa två minnen men bygger dessutom ett tredje: ett blandat minne som mixar de mest likartade synliga och infraröda exemplen. Detta hybridminne fungerar som en mötesplats och uppmuntrar nätverket att upptäcka egenskaper hos en person som är stabila över ljusförhållanden och sensorer, såsom kroppssilhuett eller klädlayout snarare än färg. En tredje komponent, adaptiv viktning vid uppdatering av minnet, ger mer inflytande åt ovanliga men tillförlitliga exempel och mindre åt tvetydiga, så att minnet utvecklas mot skarpare, mer globalt användbara representationer.

Sätta metoden på prov

Gruppen evaluerar sitt angreppssätt, kallat Soft Smooth Contrastive Learning with Hybrid Memory (SCLHM), på tre välanvända dataset som inkluderar både synligt och infrarött material insamlat av flera kameror i realistiska miljöer. De jämför sitt system med många befintliga metoder, inklusive några som använder full mänsklig märkning och andra som arbetar med partiella eller inga etiketter alls. Överlag uppnår SCLHM toppresultat bland etikettfria metoder, och i flera fall kommer det nära eller konkurrerar med metoder som förlitar sig på manuella annotationer. Ytterligare experiment visar att var och en av de tre delarna — mjuk utjämning, hybridminne och adaptiv uppdatering — bidrar meningsfullt till den slutliga noggrannheten.

Klare syn dygnet runt

För en allmän läsare är huvudbudskapet att författarna byggt ett sätt för datorer att själva lära sig känna igen personer över dag- och nattkameror utan att människor behöver namnge vem som är vem. Genom att jämna ut opålitliga gissningar och omsorgsfullt kombinera vad som är unikt för varje kameratyp med vad de har gemensamt, lär sig ramen mer stabila och generella mönster. Det gör personspårning i komplexa, svagt belysta miljöer mer exakt och skalbart, vilket kan gynna säkerhet, trafikstyrning och andra tillämpningar som är beroende av pålitlig visuell övervakning dygnet runt.

Citering: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Nyckelord: personåteridentifiering, infraröd avbildning, osuperviderad inlärning, kontrastiv inlärning, övervakning