Clear Sky Science · tr

Çapraz-modal bilgi darboğazı ve minimum gereksiz dönüşüme dayalı kızılötesi-görünür füzyonlu çok modlu nesne algılama algoritması üzerine bir çalışma

2026-03-10 · Dizine geri dön

Karanlıkta Net Görmek

Modern otomobiller, sokak kameraları ve güvenlik robotları yağmur, sis ve gece karanlığında insanları ve nesneleri tespit etmek zorunda kalıyor. Görünür ışık kameraları—gözlerimize benzer şekilde—sahne karanlık veya parlaklıkla dolu olduğunda zorlanırken, kızılötesi kameralar ısıyı yakalayabilir fakat genellikle ayrıntıları kaçırır. Bu makale, makinelerin zorlu koşullarda yayaların tespitini daha güvenilir hale getirmek için görünür ve kızılötesi görüntüleri "fuse" ederek daha az yanlış alarm ve kaçırma ile nasıl birleştirebileceğine dair yeni bir yöntem sunar.

Neden İki Tür Görüş Birinden Daha İyidir

Görünür kameralar gündüz zengin dokular, renkler ve ince detayları yakalar, ancak gece veya sert aydınlatmada performansları hızla düşer. Kızılötesi kameralar ise ısıyı gördükleri için insanlar karanlıkta, siste veya arkadan aydınlatmada bile öne çıkar. Bununla birlikte, kızılötesi görüntüler genellikle bulanıktır ve keskin kenarlardan yoksundur. Mevcut birçok sistem bu iki görüntü tipini basitçe üst üste koyar veya piksel piksel hangi kameraya daha çok güvenileceğini belirleyen dikkat mekanizmaları kullanır. Bu yöntemler fayda sağlasa da hâlâ çok fazla tekrarlanan veya çelişkili bilgi içerir ve füzyon sonucu, özellikle ışık aniden değiştiğinde veya nesneler kısmen gizlendiğinde, algılama ağı için kafa karıştırıcı olabilir.

Gürültüyü Elemek, Özleri Saklamak

Yazarlar, iki kameranın ortak olanını ön plana çıkarıp gereksiz olanı atmaya odaklanan yeni bir algılama çerçevesi öneriyor. Bunun merkezinde, ortak görünür–kızılötesi veriyi kasıtlı olarak dar bir "kanaldan" sıkarak her iki görüşün de üzerinde anlaştığı şeyi yeniden inşa eden bir Çapraz-modal Bilgi Darboğazı modülü bulunuyor. Bu süreç sırasında ağ, nesneleri tanımaya gerçekten yardımcı olan desenleri tutmayı, kamera spesifik tuhaflıkları ve gürültüyü ise elden çıkarmayı öğreniyor. Görünür görüntülere özgü olanı ve kızılötesiye özgü olanı ayrı ayrı çıkarıyor, ardından her kameranın güçlü yönleri paylaşılan görünümü bastırmadan korunacak şekilde kontrollü biçimde yeniden birleştiriyor.

Daha Keskin Odak İçin Fazlalığı Kırpmak

Bilgiyi daha da temizlemek için çerçeve, Minimum Gereksizlik Dönüşümü adlı bir modül tanıtıyor. Bu bileşen, füzyonlanmış veriyi kanallar ve bölgeler koleksiyonu gibi ele alıyor ve kararsız, detay bakımından zayıf veya aydınlatma artifaktlarının hakim olduğu kısımları otomatik olarak maskeliyor. Ayrıca yararlı yapıyı ve kalan gereksizliği dahili uzayında farklı "yönlere" zorlamak için matematiksel kısıtlar kullanıyor; bu da ağın algılama ile ilgisi olmayan desenleri görmezden gelmesini kolaylaştırıyor. Sonuçta ortaya çıkan kompakt, seyrek temsil, özellikle gece veya karmaşık kentsel sahnelerde yayaları tespit etmek için önemli olan net nesne sınırlarını ve tutarlı şekilleri vurguluyor.

Yöntemi Sınamak

Araştırmacılar yaklaşımını, eşleştirilmiş görünür ve kızılötesi görüntülerden oluşan iki yaygın veri seti olan KAIST ve LLVIP üzerinde değerlendiriyor; bu veri setleri normal ve düşük ışıklı koşullardaki kalabalık sokakları içeriyor. Yöntemleri modern bir transformer tabanlı dedektör üzerine inşa edilmiş ve iki aşamada eğitilmiş: önce her bir kamera dalı ayrı ayrı istikrara kavuşturuluyor; sonra füzyon, iki dalın sorunsuz çalışması için ince ayar yapılıyor. Her iki veri setinde de yeni çerçeve, özellikle çok hassas sınırlayıcı kutu gerektiren sıkı yerelleştirme ölçülerinde, yalnızca görünür, yalnızca kızılötesi ve diğer füzyon yöntemlerini geride bırakıyor. Ayrıca görüntüler yapay olarak gürültü, ani parlaklık değişimleri veya yayaların parçalarını kapatan sentetik örtmecelerle bozulduğunda bile daha güvenilir kalıyor; bu da modelin gerçek dünya bozulmalarına karşı sağlam olduğunu gösteriyor.

Daha Güvenli Makineler İçin Ne Anlama Geliyor

Basitçe söylemek gerekirse, bu çalışma algılama sistemlerine her iki kamerayı da dinlemeyi ancak birbirlerinin sesini bastırmalarına izin vermemeyi öğretiyor. Görünür ve kızılötesi görüntülerden gelen bilgiyi sıkıştırıp yeniden düzenleyerek önerilen yöntem, paylaşılan, anlamlı ipuçlarını koruyor ve yinelemeden ve gürültüden büyük kısmını kesiyor. Bu, loş sokaklardan yoğun kalabalıklı arka planlara kadar zor sahnelerde insanların daha net tanınmasını sağlıyor. Yazarlar, aynı ilkelerin videoya, çoklu nesne izlemeye ve hatta gelecekte görüntüleri dil ile harmanlayan sistemlere genişletilebileceğini, böylece makinelerin her türlü aydınlatmada dünyayı daha güvenilir şekilde görmesine—ve anlamasına—yardımcı olacağını belirtiyorlar.

Atıf: Tan, W., Geng, B. & Bai, X. A study on infrared-visible fusion multimodal object detection algorithm based on cross-modal information bottleneck and minimum redundancy transformation. Sci Rep 16, 12991 (2026). https://doi.org/10.1038/s41598-026-35339-2

Anahtar kelimeler: kızılötesi-görünür füzyon, çok modlu nesne algılama, <keyword>düşük ışık görüntüleme, sensör füzyon sağlamlığı