Clear Sky Science · pt

Aprendizado contrastivo suave com memória híbrida para re-identificação de pessoas visível-infravermelho não supervisionada

2026-03-17 · Voltar ao índice

Vendo Pessoas no Escuro

Cidades modernas estão cobertas por câmeras, mas a maioria delas tem desempenho ruim à noite ou em condições meteorológicas adversas. Câmeras infravermelhas, que captam calor em vez de luz visível, podem suprir essa lacuna. O desafio é ensinar computadores a reconhecer a mesma pessoa quando ela aparece muito diferente para uma câmera diurna e para uma câmera sensível ao calor — e fazer isso sem especialistas humanos rotulando milhares de imagens. Este estudo propõe uma nova forma de aprender esse pareamento automaticamente, tornando sistemas de segurança funcionais 24 horas por dia e mais atentos à privacidade.

Correspondendo Pessoas entre Dois Mundos Muito Diferentes

A re-identificação de pessoas visível-infravermelho coloca uma pergunta de aparência simples: dada uma pessoa vista por uma câmera colorida comum, conseguimos encontrar a mesma pessoa em imagens de uma câmera infravermelha, ou vice-versa? Na prática, os dois tipos de imagem diferem em cor, contraste e detalhes, de modo que a representação interna do computador para uma pessoa pode divergir entre os tipos de câmera. Sistemas anteriores frequentemente dependiam de grandes conjuntos de imagens rotuladas manualmente, nos quais humanos indicavam cuidadosamente quais fotos mostravam o mesmo indivíduo. Isso é caro e demorado, especialmente para redes de múltiplas câmeras em espaços amplos como campi, aeroportos ou quarteirões da cidade.

Aprendendo Sem Rótulos Humanos

Os autores focam na versão mais difícil do problema — a “não supervisionada” — onde não são fornecidos rótulos de identidade verdadeiros. Em vez disso, o computador primeiro agrupa imagens semelhantes em clusters, tratando cada cluster como se fosse uma pessoa. Essas identidades estimadas são chamadas de pseudo-rótulos. Elas alimentam uma estratégia de treinamento popular conhecida como aprendizado contrastivo, em que o modelo aproxima internamente imagens do mesmo cluster e afasta imagens de clusters diferentes. Mas a clusterização está longe de ser perfeita: pessoas com roupas semelhantes podem ser confundidas, e a discrepância entre visível e infravermelho provoca ainda mais erros. Quando essas suposições erradas entram no treinamento, elas podem enganar o modelo e reduzir sua confiabilidade.

Abaixando o Ruído das Estimativas

Para domar esses pseudo-rótulos falhos, o artigo introduz um esquema de aprendizado contrastivo “suave e homogêneo” que usa duas redes neurais cooperantes: uma estudante e uma professora. A estudante é atualizada da forma usual durante o treinamento, enquanto a professora é uma média lenta dos parâmetros da estudante. Para cada imagem, a professora produz uma avaliação em estilo probabilístico de quão bem ela se encaixa em cada cluster, em vez de uma decisão rígida de sim ou não. Essa avaliação suave é então combinada com a atribuição mais rígida da estudante. O resultado é um alvo suavizado que atenua decisões incertas e aumenta a influência das mais confiáveis. Na prática, o modelo aprende a confiar em tendências graduais ao longo do tempo em vez de reagir de forma abrupta a cada atualização ruidosa.

Lembrando Diferenças e Pontos em Comum

A segunda ideia-chave é uma “memória híbrida” que armazena o que o sistema aprendeu até o momento. Métodos convencionais mantêm memórias separadas para imagens visíveis e infravermelhas, o que preserva diferenças, mas dificulta extrair o que é compartilhado entre os dois. Aqui, os autores mantêm essas duas memórias e também constroem uma terceira: uma memória combinada que mistura os exemplos visíveis e infravermelhos mais semelhantes. Essa memória híbrida atua como um ponto de encontro, incentivando a rede a descobrir características de uma pessoa que são estáveis entre condições de iluminação e sensores, como a forma geral do corpo ou o padrão de roupas, em vez da cor. Um terceiro componente, a atualização adaptativa de pesos na memória, dá mais influência a exemplos incomuns mas confiáveis e menos a exemplos ambíguos, de modo que a memória evolui para representações mais nítidas e úteis globalmente.

Testando o Método

A equipe avalia sua abordagem, chamada Aprendizado Contrastivo Suave com Memória Híbrida (SCLHM), em três conjuntos de dados amplamente usados que incluem imagens visíveis e infravermelhas coletadas por múltiplas câmeras em cenários realistas. Eles comparam seu sistema com muitos métodos existentes, incluindo alguns que usam rotulagem humana completa e outros que trabalham com rótulos parciais ou nenhum rótulo. Em todas as avaliações, o SCLHM alcança desempenho de ponta entre abordagens sem rótulos e, em vários casos, se aproxima ou até rivaliza com métodos que dependem de anotações manuais. Experimentos adicionais mostram que cada um dos três componentes — suavização, memória híbrida e atualização adaptativa — contribui de forma relevante para a precisão final.

Visão Mais Clara a Qualquer Hora

Para o leitor geral, a mensagem principal é que os autores construíram um modo pelo qual computadores aprendem sozinhos a reconhecer pessoas entre câmeras diurnas e noturnas sem exigir que humanos identifiquem quem é quem. Ao suavizar estimativas pouco confiáveis e combinar com cuidado o que é único de cada tipo de câmera com o que eles compartilham, o quadro proposto aprende padrões mais estáveis e gerais. Isso torna o rastreamento de pessoas em ambientes complexos e com pouca luz mais preciso e escalável, o que pode beneficiar segurança, gerenciamento de tráfego e outras aplicações que dependem de vigilância visual confiável 24 horas por dia.

Citação: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Palavras-chave: re-identificação de pessoas, imagens infravermelhas, aprendizado não supervisionado, aprendizado contrastivo, vigilância