Clear Sky Science · fr

Fusion d'images infrarouge-visible par mécanisme à double attention et perte d'interaction adaptative

· Retour à l’index

Voir plus qu'une seule caméra

Imaginez conduire par une nuit brumeuse où vos yeux et une caméra thermique saisissent chacun des parties différentes de la scène. L'une montre la chaleur émise par des personnes et des voitures, l'autre révèle les marquages au sol, les bâtiments et les panneaux. Cette étude décrit une nouvelle façon de combiner ces deux vues en une seule image plus nette qui peut aider les humains et les machines à mieux voir dans des environnements extérieurs complexes.

Figure 1. Fusionner les vues thermiques et les vues caméra normales en une scène plus claire pour une meilleure vision en extérieur.
Figure 1. Fusionner les vues thermiques et les vues caméra normales en une scène plus claire pour une meilleure vision en extérieur.

Pourquoi deux types d'images comptent

Les caméras en lumière visible capturent le monde un peu comme nos yeux, avec des détails nets et des textures riches. Les caméras infrarouges captent la chaleur : des formes brillantes révèlent des moteurs chauds, des personnes ou des animaux même dans l'obscurité, la brume ou les éblouissements. Chaque vue est incomplète en soi. Les images visibles peuvent perdre des objets importants par mauvais temps ou faible luminosité, tandis que les images infrarouges paraissent souvent floues et manquent de détails fins. Les combiner en une image qui conserve à la fois textures nettes et signaux thermiques intenses est précieux pour la surveillance, la télédétection et les véhicules autonomes.

Le défi de mélanger des vues différentes

Pendant des années, les chercheurs ont développé des algorithmes qui apprennent à fusionner des images infrarouges et visibles. Beaucoup de méthodes modernes utilisent l'apprentissage profond, où l'ordinateur détermine quelles caractéristiques garder et comment les mélanger. Une idée populaire est l'attention, qui permet au réseau de se concentrer sur les parties les plus importantes d'une image. Mais les systèmes antérieurs se focalisaient soit uniquement sur chaque image séparément, soit mélangeaient sans suffisamment de contrôle. Cela pouvait conduire à ce que des détails importants d'une caméra noient des signaux uniques de l'autre, ou que l'image finale devienne terne et moins informative.

Prêter attention dans deux directions

Les auteurs proposent un nouveau modèle de fusion basé sur une idée de double attention. D'abord, le réseau examine chaque image séparément pour comprendre ses propres motifs et structures, comme les contours, les textures et les objets chauds. Ensuite, il effectue une attention croisée, où les vues infrarouge et visible interagissent et se guident mutuellement, de sorte que les régions correspondantes puissent partager des informations utiles. Ces étapes sont réalisées avec un bloc moderne appelé Swin Transformer, qui divise les images en petits patchs et analyse les relations entre régions éloignées. Après cette extraction en deux étapes, un autre bloc d'attention mélange les caractéristiques combinées en une seule représentation, qui est retransformée en image.

Figure 2. Mélange progressif des régions thermiques et détaillées afin que chaque image prenne le relais là où elle est la plus informative.
Figure 2. Mélange progressif des régions thermiques et détaillées afin que chaque image prenne le relais là où elle est la plus informative.

Laisser les données décider qui mène

Une idée clé de ce travail est que l'équilibre entre les deux caméras doit varier selon les zones de l'image. Dans certaines régions, les formes thermiques sont plus importantes, comme une personne se détachant sur un fond animé. Dans d'autres, la texture visible compte davantage, par exemple les marquages routiers ou les arêtes de bâtiments. Les auteurs conçoivent une règle d'entraînement adaptative qui mesure l'activité visuelle de chaque caméra dans chaque petit patch de l'image, puis ajuste automatiquement l'influence de ce patch sur le processus d'apprentissage. Cela oriente le réseau pour mettre en avant la source la plus informative localement, au lieu d'imposer un poids égal partout.

Performances de la nouvelle méthode

L'équipe teste sa méthode sur deux jeux de données standard d'environnements extérieurs comprenant routes, véhicules, personnes et arrière-plans complexes. Ils comparent leur approche à sept techniques de fusion de pointe issues de différentes familles d'apprentissage profond. L'inspection visuelle et plusieurs scores numériques montrent que la nouvelle méthode produit des images avec un contraste plus élevé, des bords plus nets et des détails plus riches tout en préservant les cibles thermiques clés. Des tests complémentaires, où des composants du modèle sont supprimés ou modifiés, confirment que l'attention croisée et la règle d'entraînement adaptative jouent des rôles cruciaux dans l'amélioration des résultats.

Que cela signifie pour la vision en conditions réelles

Pour un lecteur non spécialiste, la conclusion est simple. En apprenant à un ordinateur non seulement à regarder deux caméras mais à gérer leur influence mutuelle de manière soignée et dépendante de la localisation, cette méthode produit des images combinées plus claires que les approches précédentes. Cela peut faciliter la détection d'objets importants pour les personnes et les systèmes automatisés dans des conditions difficiles, et ces idées pourraient aussi servir à de futurs outils fusionnant d'autres types de capteurs.

Citation: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

Mots-clés: fusion d'images, imagerie infrarouge, vision par ordinateur, réseaux d'attention, conduite autonome