Clear Sky Science · pt

Algoritmo de fusão de imagens infravermelhas e visíveis baseado em NSCT e detecção de saliência FT aprimorada

· Voltar ao índice

Ver no Escuro e Através da Desordem

Câmeras modernas nos dão vistas nítidas e coloridas do mundo, mas têm dificuldade em neblina, escuridão ou ofuscamento—exatamente quando mais precisamos de visão confiável para dirigir, vigilância, busca e resgate ou drones. Sensores infravermelhos, que capturam calor em vez de cor, se destacam nessas condições adversas, mas produzem imagens borradas e com poucos detalhes. Este artigo apresenta uma forma de combinar inteligentemente imagens infravermelhas e de luz visível para que a imagem final mostre tanto detalhes nítidos quanto pessoas ou objetos claramente realçados, mesmo em cenas difíceis.

Figure 1
Figure 1.

Por Que Dois Olhos São Melhores que Um

Câmeras de luz visível registram texturas finas e cenários ricos, mas seu desempenho desaba à noite ou em sombras profundas, e alvos podem se confundir com fundos de cor semelhante. Câmeras infravermelhas fazem o oposto: captam corpos quentes e objetos que emitem calor contra fundos escuros, dia ou noite, mas perdem grande parte da estrutura sutil de edifícios, árvores e estradas. Fundir esses dois tipos de imagem em uma só pode, em princípio, oferecer o melhor dos dois mundos. Contudo, muitos métodos de fusão existentes acabam ou lavando o contraste, ou borrando as bordas dos objetos, ou deixando padrões ruidosos do infravermelho dominarem os detalhes úteis da imagem visível.

A Ideia Central: Deixe as Partes Importantes Se Destacarem

Os autores encaram a fusão como um problema de resolução de conflitos entre os dois tipos de imagem. Eles se concentram em três questões recorrentes: identificar quais regiões são realmente importantes ("salientes"), balancear o brilho geral entre alvos quentes do infravermelho e fundos claros visíveis, e preservar texturas delicadas enquanto suprimem o ruído infravermelho. Para isso, refinam uma técnica popular chamada detecção de saliência afinada por frequência (frequency‑tuned), que tenta imitar o sistema visual humano destacando regiões que naturalmente atraem nossa atenção. Em vez de confiar em um desfoque simples, usam um par de filtros mais inteligentes—um que suaviza preservando bordas e outro que realça contraste—para esculpir um mapa mais limpo e nítido de onde estão os alvos infravermelhos interessantes.

Separando Formas Grossas e Detalhes Finos

Uma vez que o algoritmo sabe onde estão os principais alvos infravermelhos, ele divide tanto as imagens infravermelhas quanto as visíveis em camadas que separam estruturas grosseiras de detalhes finos usando uma ferramenta matemática chamada Transformada Contourlet Não‑Subamostrada (Non‑Subsampled Contourlet Transform). As camadas de baixa frequência contêm padrões amplos de brilho, como céu, estradas ou paredes, enquanto as camadas de alta frequência capturam bordas, texturas e pequenas feições. Para as camadas grosseiras, o método mistura informações usando tanto o mapa de saliência infravermelho aprimorado quanto uma medida baseada em Laplaciano de quão nítidas são as estruturas locais. Isso ajuda a evitar imagens lavadas onde ou os objetos quentes dominam a cena ou o fundo visível abafa alvos importantes.

Figure 2
Figure 2.

Manter Texturas Nítidas, Ruído Sob Controle

As camadas de alta frequência exigem uma estratégia diferente, porque é nelas que convivem tanto texturas úteis quanto ruídos indesejados. Aqui o método primeiro escolhe, região a região, qual sensor oferece maior detalhe local. Em seguida, refina essa escolha inicial com um procedimento de mínimos quadrados ponderados que tende às texturas de luz visível mais limpas e informativas, ao mesmo tempo em que ainda permite a passagem de padrões infravermelhos significativos. O resultado é uma imagem fundida onde galhos de árvore, arestas de edifícios e marcações de estrada ficam nítidos, mas artefatos pontilhados do infravermelho são reduzidos.

Imagens Melhores, Decisões de Máquina Melhores

A equipe testou sua abordagem em vários conjuntos de dados públicos e em suas próprias imagens com pouca luz, comparando‑a a técnicas tradicionais e a métodos modernos de aprendizado profundo. A inspeção humana mostrou que suas imagens fundidas tinham fundos mais claros, maior contraste e alvos mais evidentes, especialmente em corredores escuros, ruas à noite e cenas externas poluídas visualmente. Medidas objetivas de conteúdo informativo, nitidez e contraste favoreceram em grande parte o novo método ou mostraram que ele apresenta um balanço sólido entre as métricas. Crucialmente, quando essas imagens fundidas foram alimentadas em um sistema popular de detecção de objetos (YOLOv5s), precisão, recall e acurácia de detecção melhoraram de forma notável. Em termos simples, o algoritmo não apenas produz imagens mais agradáveis; ele também ajuda sistemas automatizados a encontrar pessoas e objetos com mais confiabilidade. Isso sugere que uma fusão mais inteligente de imagens infravermelhas e visíveis pode desempenhar um papel-chave em direção a uma direção autônoma mais segura, vigilância mais eficaz e robôs mais confiáveis operando no escuro ou em ambientes visualmente complexos.

Citação: Fan, X., Kong, F., Shi, H. et al. Infrared and visible image fusion algorithm based on NSCT and improved FT saliency detection. Sci Rep 16, 7144 (2026). https://doi.org/10.1038/s41598-026-37670-0

Palavras-chave: fusão infravermelho-visível, saliência de imagem, imagens multissensor, visão noturna, visão computacional