Clear Sky Science · es

Aprendizaje contrastivo suave y continuo con memoria híbrida para la reidentificación no supervisada de personas visible-infrarrojo

· Volver al índice

Ver a las personas en la oscuridad

Las ciudades modernas están cubiertas de cámaras, pero la mayoría de ellas tienen dificultades por la noche o con mal tiempo. Las cámaras infrarrojas, que captan calor en lugar de luz visible, pueden cubrir esa carencia. El reto es enseñar a los ordenadores a reconocer a la misma persona cuando su aspecto difiere mucho entre una cámara diurna y una cámara que detecta calor, y hacerlo sin que expertos humanos etiqueten miles de imágenes de ejemplo. Este estudio propone una nueva forma de aprender ese emparejamiento de manera automática, haciendo que los sistemas de seguridad continuos y respetuosos con la privacidad sean más prácticos.

Figure 1
Figura 1.

Emparejar personas entre dos mundos muy distintos

La reidentificación de personas visible-infrarrojo plantea una pregunta que parece simple: dada una persona vista por una cámara a color normal, ¿podemos encontrar a la misma persona en imágenes de una cámara infrarroja, o viceversa? En la práctica, los dos tipos de imagen difieren en color, contraste y detalle, por lo que la representación interna del ordenador de una persona puede separarse según el tipo de cámara. Los sistemas anteriores a menudo dependían de grandes conjuntos de imágenes etiquetadas a mano, donde humanos indicaban con cuidado qué fotos mostraban a la misma persona. Eso es caro y lento, especialmente para redes multi-cámara en espacios grandes como campus, aeropuertos o manzanas de la ciudad.

Aprender sin etiquetas humanas

Los autores se centran en la versión más difícil—«no supervisada»—del problema, donde no se proporcionan etiquetas de identidad verdaderas. En su lugar, el ordenador primero agrupa imágenes que parecen similares en clústeres, tratando cada clúster como si fuera una persona. A estas identidades estimadas se las llama pseudoetiquetas. Alimentan una estrategia de entrenamiento popular conocida como aprendizaje contrastivo, donde el modelo acerca en su representación interna las imágenes del mismo clúster y separa las de clústeres distintos. Pero la agrupación está lejos de ser perfecta: personas con ropa similar pueden confundirse, y la brecha entre las vistas visible e infrarroja añade más errores. Una vez que estas conjeturas erróneas se incorporan al entrenamiento, pueden desorientar al modelo y reducir su fiabilidad.

Suavizar las conjeturas ruidosas

Para domar esas pseudoetiquetas defectuosas, el artículo introduce un esquema de aprendizaje contrastivo “suave y continuo” que usa dos redes neuronales cooperantes, una estudiante y una profesora. La estudiante se actualiza de la forma habitual durante el entrenamiento, mientras que la profesora es un promedio de movimiento lento de los parámetros de la estudiante. Para cada imagen, la profesora produce una evaluación suave en forma de probabilidades sobre lo bien que encaja en cada clúster, en lugar de una decisión tajante de sí o no. Esta evaluación suave se combina luego con la asignación más dura de la estudiante. El resultado es un objetivo suavizado que atenúa decisiones inciertas y aumenta la influencia de las más fiables. En la práctica, el modelo aprende a confiar en tendencias graduales a lo largo del tiempo en lugar de reaccionar de forma brusca a cada actualización ruidosa.

Recordar tanto las diferencias como lo común

La segunda idea clave es una “memoria híbrida” que almacena lo que el sistema ha aprendido hasta el momento. Los métodos convencionales mantienen memorias separadas para imágenes visibles e infrarrojas, lo que conserva las diferencias pero dificulta destilar lo que comparten ambos dominios. Aquí, los autores mantienen esas dos memorias pero también construyen una tercera: una memoria mezclada que combina los ejemplos visible e infrarrojo más similares. Esta memoria híbrida actúa como un punto de encuentro, fomentando que la red descubra características de una persona que son estables a través de condiciones de iluminación y sensores, como la forma general del cuerpo o la disposición de la ropa en lugar del color. Un tercer componente, la actualización adaptativa del peso de la memoria, da más influencia a ejemplos inusuales pero fiables y menos a los ambiguos, de modo que la memoria evoluciona hacia representaciones más nítidas y globalmente útiles.

Figure 2
Figura 2.

Poner el método a prueba

El equipo evalúa su enfoque, llamado Aprendizaje Contrastivo Suave con Memoria Híbrida (SCLHM), en tres conjuntos de datos ampliamente usados que incluyen imágenes visibles e infrarrojas recogidas por múltiples cámaras en entornos realistas. Comparan su sistema con muchos métodos existentes, incluidos algunos que usan etiquetado humano completo y otros que trabajan con etiquetas parciales o sin ellas. En general, SCLHM logra un rendimiento de vanguardia entre los enfoques sin etiquetas y, en varios casos, se acerca o incluso rivaliza con métodos que dependen de anotaciones manuales. Experimentos adicionales muestran que cada una de las tres piezas—suavizado, memoria híbrida y actualización adaptativa—contribuye de forma significativa a la precisión final.

Una visión más clara las 24 horas

Para un lector general, el mensaje central es que los autores han desarrollado una forma de que los ordenadores se enseñen a reconocer personas entre cámaras diurnas y nocturnas sin que sea necesario que los humanos digan quién es quién. Al suavizar las conjeturas poco fiables y combinar con cuidado lo que es único de cada tipo de cámara con lo que comparten, su marco aprende patrones más estables y generales. Esto hace que el seguimiento de personas en entornos complejos y con poca luz sea más preciso y escalable, lo que podría beneficiar a la seguridad, la gestión del tráfico y otras aplicaciones que dependen de una percepción visual continua y fiable.

Cita: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Palabras clave: reidentificación de personas, imagen infrarroja, aprendizaje no supervisado, aprendizaje contrastivo, vigilancia