Clear Sky Science · tr

Bozulma Bilgili Kızılötesi ve Görünür Görüntü Füzyonu için VLM Rehberli Ağda Bozulma Eşlemesi Modelleme

· Dizine geri dön

Gürültülü Bir Dünyada Daha Keskin Gece Görüşü

Modern kameralar karanlıkta görebiliyor, ısıyı hissedebiliyor ve yol boyunca bizi izleyebiliyor—ancak çekimleri sıklıkla kusursuz olmaktan uzak. Sokak lambaları parlama yapar, gölgeler ayrıntıları yutar ve sensörler benekli gürültü ekler. Bu çalışma, sıradan renkli video ile ısı algılayan kızılötesi görüntüleri birleştirmenin yeni bir yolunu sunuyor; böylece her iki giriş de ağır şekilde bozulmuş olsa bile nihai görüntü daha net ve güvenilir oluyor. Yöntem, özellikle gece, kötü hava koşulları ve karmaşık gerçek dünya sahnelerinde ihtiyacımız olan koşullarda özerk araçlar, gözetim sistemleri ve diğer akıllı kameraların daha güvenilir olmasını sağlayabilir.

Figure 1
Figure 1.

Neden İki Göz Birden Daha İyidir

Görünür ışık kameraları, insanların alışık olduğu zengin renkleri ve dokuları yakalar, ancak düşük ışıkta, parlamada ve yoğun gölgelerde zorlanırlar. Buna karşılık kızılötesi kameralar ısıyı algılar ve karanlıkta insan veya araç gibi sıcak nesneleri kolayca ayırabilir; yine de görüntüleri çoğu zaman düz görünür ve ince ayrıntılardan yoksundur. Kızılötesi ve görünür görüntü füzyonu, her ikisinin en iyi yanlarını birleştirmeyi hedefler: kızılötesinin sıcak hedeflerin keskin hatları ile görünür ışığın bağlamsal ayrıntı ve renkleri. Ancak geleneksel olarak çoğu füzyon yöntemi her iki giriş görüntüsünün de zaten temiz ve yüksek kalite olduğunu varsayar—oysa sokaklar, şehirler ve endüstriyel sahalarda bulanıklık, gürültü, düşük aydınlatma ve aşırı pozlama normdur, istisna değildir.

Ön İşleme Yetersiz Kaldığında

Mevcut sistemler genellikle kötü görüntülerle iki ayrı adımda uğraşır. İlk olarak, ayrı artırma araçları karanlık sahneleri aydınlatır, gürültüyü azaltır veya kontrastı düzeltir. Ancak yalnızca bunun ardından bir füzyon ağı iyileştirilmiş görüntüleri harmanlar. Bu iki aşamalı yaklaşımın birkaç eksisi vardır. Her bozulma türü ve her sensör için farklı iyileştirme araçlarını seçmeye ve ayarlamaya mühendislere zorlar; iş akışlarını kırılgan ve karmaşık hale getirir. Daha da önemlisi, bağımsız temizleme sırasında kaybolan veya bozulan herhangi bir bilgi sonradan füzyon aşamasında kurtarılamaz. Bazı yakın çalışmalar tek bir bozulma türüne göre ayarlanmış özel ağlar tanıttı veya tek seferde tek bir kötü modülite ile başa çıkmak için dil rehberli modeller kullandı. Ancak hem kızılötesi hem görünür görüntüler bozulduğunda—ve sıklıkla farklı biçimlerde bozulduklarında—bu stratejiler hâlâ büyük ölçüde manuel ön işleme bağımlıdır ve karışık, gerçek dünya koşullarıyla başa çıkmakta zorlanır.

Bozulmayı Anlayan Bir Füzyon Ağı

Yazarlar, bozulma işlemini doğrudan füzyon sürecine yerleştiren yeni bir derin öğrenme çerçevesi olan VGDCFusion’ı öneriyor. Temel fikir, ağa hangi tür sorunların beklenmesi gerektiğini sözcüklerle bildirmek ve sonra bu bilgiyi özellik çıkarma ve birleştirme adımlarının her birinde kullanmaktır. Kısa metin istemleri görev (kızılötesi–görünür füzyon) ve düşük ışık, aşırı pozlama, düşük kontrast veya gürültü gibi mevcut özel sorunları tanımlar. CLIP benzeri sistemlere benzer güçlü bir görüş–dil modeli bu istemleri kompakt sayısal tanımlayıcılara dönüştürür. Bu tanımlayıcılar iki ana yapı taşını yönlendirir: her modda ayrı çalışan Özel-İstem Bozulma-Eşlemeli Çıkarıcı (SPDCE) ve modlar arası bilgiyi harmanlarken hangi bozulmanın kaldığına dikkat eden Ortak-İstem Bozulma-Eşlemeli Füzyon (JPDCF).

Rehberli Füzyon Süreci Nasıl Çalışır

Her SPDCE modülünün içinde, istemden türetilen rehberlik ağı, önemli özelliklere yönlendirir ve artefaktlardan uzaklaştırır. Çok ölçekli konvolüsyon katmanları kenarları ve dokuları korumak için küçük komşuluklara bakarken, Transformer katmanları daha büyük ölçekli yapıyı ve bağlamı yakalar. Birlikte, örneğin gürültülü bir kızılötesi karedeki önemli ısı imzalarını veya düşük pozlanmış bir görünür görüntüdeki soluk yol çizgilerini vurgulamayı ve sensör gürültüsü ile aydınlatma kusurlarını bastırmayı öğrenirler. Paralel olarak, JPDCF modülleri her iki dalın temizlenmiş özelliklerini alır ve yine istem rehberliğinde bunları birleştirir. Mekânsal ve kanal dikkatini kullanarak bilgi veren bölgeleri vurgular, kalan bozulmaları filtreler ve tamamlayıcı ipuçlarını bir araya getirir—örneğin bir yayanın parlak kızılötesi konturunu görünür kameradan gelen renk ve arka plan yapısıyla hizalayarak—ardından üç kanallı bir birleşik çıktı görüntüsü yeniden yapılandırılır.

Figure 2
Figure 2.

Yöntemin Test Edilmesi

Kullanışlılığını göstermek için ekip VGDCFusion’ı düşük ışıklı ve aşırı pozlanmış görünür görüntüleri ile gürültülü veya düşük kontrastlı kızılötesi görüntüleri içeren birkaç halka açık veri kümesinde değerlendirdi. Yöntemlerini otomatik kodlayıcılar, konvolüsyonel ağlar, üretici-rekabetçi ağlar ve Transformer’ları kapsayan çeşitli son teknolojik füzyon teknikleriyle karşılaştırdılar. Standart görüntü kalitesi ölçümleri kullanıldığında, VGDCFusion dikkatli ayarlanmış ön işlemeye avantaj verilmiş olsa bile tutarlı şekilde daha keskin kenarlar, daha iyi kontrast ve daha doğal renklerle birleşik görüntüler üretti. Yeni yaklaşım ağır bozulma senaryolarında önemli metrikleri ortalama olarak yaklaşık %15 oranında geliştirdi. Bir popüler nesne tespit sistemine bu birleşik görüntüler verildiğinde, yalnızca kızılötesi veya yalnızca görünür görüntü kullanmaya ya da diğer füzyon ağlarını kullanmaya kıyasla daha yüksek tespit doğruluğuna da yol açtı.

Daha Güvenli Sistemler İçin Daha Net Görüş

Düz ifadeyle, bu çalışma bir görüntü füzyon ağının hangi görsel sorunları beklemesi gerektiğini söylemenin—ve düzeltme ile füzyonu tek, sıkı bağlı bir adımda yapmasına izin vermenin—iyileştirme ve füzyonu ayrı görevler olarak ele almaya göre daha temiz, daha bilgilendirici görüntüler üretebileceğini gösteriyor. Bozulma modellemesini füzyon süreciyle eşleyip dil rehberli ipuçlarını her katmanda kullanarak, VGDCFusion sürekli insan ayarı gerektirmeden çeşitli ve karışık görüntü bozulma biçimlerine uyum sağlayabiliyor. Bu tür akıllı, bozulma-bilinçli füzyon, özerk araçlardan güvenlik kameralarına kadar geleceğin görme sistemlerinin gerçek dünyadaki karmaşık, kusurlu koşullarda daha güvenilir görmesine yardımcı olabilir.

Atıf: Zhao, J., Zhang, T. & Cui, G. A VLM guided network coupling degradation modeling for degradation aware infrared and visible image fusion. Sci Rep 16, 8249 (2026). https://doi.org/10.1038/s41598-026-38181-8

Anahtar kelimeler: kızılötesi ve görünür füzyon, az ışıkta görüntüleme, görüş-dil modelleri, görüntü bozulması, özerk sürüş algısı