Clear Sky Science · nl

Zacht vloeiende contrastieve leermethode met hybride geheugen voor onbewaakte zicht-infrarood persoonshertkenning

2026-03-17 · Terug naar het overzicht

Mensen zien in het donker

Moderne steden zijn bezaaid met camera’s, maar de meeste presteren slecht ’s nachts of bij slecht weer. Infraroodcamera’s, die warmte in plaats van zichtbaar licht registreren, kunnen die kloof opvullen. De uitdaging is om computers te leren dezelfde persoon te herkennen wanneer die er heel anders uitziet op een daglichtcamera dan op een warmtetecterende camera — en dat te doen zonder dat menselijke experts duizenden voorbeeldbeelden labelen. Deze studie stelt een nieuwe manier voor om dat matchen automatisch te leren, waardoor continu aanwezige, privacybewuste beveiligingssystemen praktischer worden.

Mensen matchen over twee zeer verschillende werelden

Visible-infrared person re-identification stelt een ogenschijnlijk eenvoudige vraag: gegeven een persoon die is gezien door een gewone kleurencamera, kunnen we dezelfde persoon vinden in beelden van een infraroodcamera, of andersom? In werkelijkheid verschillen de twee soorten beelden in kleur, contrast en detail, zodat de interne beschrijving van een persoon door de computer kan afwijken tussen cameratypes. Vroege systemen waren vaak afhankelijk van grote sets handgelabelde afbeeldingen, waarin mensen zorgvuldig aangaven welke foto’s dezelfde persoon toonden. Dat is duur en traag, vooral voor multicamera-netwerken in grote ruimten zoals campussen, luchthavens of stadsblokken.

Leren zonder menselijke labels

De auteurs richten zich op de moeilijkere “onbewaakte” versie van het probleem, waarbij geen echte identiteitlabels worden meegeleverd. In plaats daarvan groepeert de computer eerst beelden die er hetzelfde uitzien in clusters en behandelt elke cluster alsof het één persoon is. Deze geraden identiteiten worden pseudo-labels genoemd. Ze voeden een populaire trainingsstrategie bekend als contrastief leren, waarbij het model beelden uit dezelfde cluster dichter bij elkaar brengt in zijn interne representatie en verschillende clusters uit elkaar duwt. Maar clusteren is verre van perfect: mensen met vergelijkbare kleding kunnen door elkaar gehaald worden, en de kloof tussen zichtbare en infraroodbeelden veroorzaakt extra fouten. Zodra deze foute veronderstellingen in de training terechtkomen, kunnen ze het model misleiden en de betrouwbaarheid verminderen.

Ruis in gissingen verzachten

Om deze foutieve pseudo-labels te temmen, introduceert het artikel een “soft smooth” contrastief leerschema dat twee samenwerkende neurale netwerken gebruikt: een student en een teacher. De student wordt op de gebruikelijke manier tijdens training bijgewerkt, terwijl de teacher een langzaam voortschrijvend gemiddelde is van de parameters van de student. Voor elk beeld produceert de teacher een zachte, waarschijnlijkheidsachtige inschatting van hoe goed het bij elke cluster past, in plaats van een harde ja-of-nee-beslissing. Deze zachte inschatting wordt vervolgens gemengd met de hardere cluster-toewijzing van de student. Het resultaat is een gesmoord doel dat onzekere beslissingen dempt en het gewicht van betrouwbaardere beslissingen vergroot. In feite leert het model om te vertrouwen op geleidelijke trends in de tijd in plaats van scherp te reageren op elke lawaaierige update.

Zowel verschillen als gemeenschappelijkheid onthouden

Het tweede kernidee is een “hybride geheugen” dat opslaat wat het systeem tot nu toe heeft geleerd. Conventionele methoden onderhouden aparte geheugens voor zichtbare en infraroodbeelden, wat de verschillen bijhoudt maar het moeilijk maakt om te destilleren wat gedeeld is tussen de twee. Hier behouden de auteurs die twee geheugens, maar bouwen ze ook een derde: een gemengd geheugen dat de meest vergelijkbare zichtbare en infraroodvoorbeelden combineert. Dit hybride geheugen fungeert als ontmoetingsplaats en moedigt het netwerk aan kenmerken van een persoon te ontdekken die stabiel zijn over lichtomstandigheden en sensoren, zoals de algemene lichaamsvorm of kledingindeling in plaats van kleur. Een derde component, adaptieve-gewichtsupdate van het geheugen, geeft meer invloed aan ongewone maar betrouwbare voorbeelden en minder aan ambigue gevallen, zodat het geheugen evolueert naar scherpere, meer globaal bruikbare representaties.

De methode op de proef stellen

Het team evalueert hun benadering, genoemd Soft Smooth Contrastive Learning with Hybrid Memory (SCLHM), op drie veelgebruikte datasets die zowel zichtbare als infraroodbeelden bevatten, verzameld door meerdere camera’s in realistische omgevingen. Ze vergelijken hun systeem met vele bestaande methoden, waaronder sommige die volledige menselijke labeling gebruiken en andere die met gedeeltelijke labels of helemaal zonder labels werken. Over de hele linie behaalt SCLHM state-of-the-art prestaties onder labelvrije benaderingen, en in meerdere gevallen komt het dicht bij of evenaart het methoden die op handmatige annotaties vertrouwen. Extra experimenten tonen dat elk van de drie onderdelen — zachte smoothing, hybride geheugen en adaptieve updates — wezenlijk bijdraagt aan de uiteindelijke accuraatheid.

Duidelijker zicht, dag en nacht

Voor de algemene lezer is de kernboodschap dat de auteurs een manier hebben ontwikkeld waarop computers zichzelf kunnen leren mensen te herkennen over dag- en nachtcamera’s zonder dat mensen hoeven te zeggen wie wie is. Door onbetrouwbare gissingen te verzachten en zorgvuldig te combineren wat uniek is voor elk cameratype met wat ze delen, leert hun raamwerk stabielere en algemenere patronen. Dit maakt persoonsvolging in complexe, slecht verlichte omgevingen accurater en schaalbaarder, wat voordelen kan bieden voor beveiliging, verkeersbeheer en andere toepassingen die afhankelijk zijn van betrouwbare, continue visuele waarneming.

Bronvermelding: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Trefwoorden: persoonshertkenning, infraroodbeeldvorming, onbewaakt leren, contrastief leren, toezicht