Clear Sky Science · tr
Frekans-domaine dinamikleri ve mekânsal olarak geliştirilmiş özellik modülasyonu ile gerçek zamanlı su altı nesne algılama
Dalgaların Altında Net Görmek
Deniz altı dünyası gıda güvenliği, enerji ve çevresel sağlık açısından kritik öneme sahiptir, ancak görülmesi zordur. Bulanık su, yüzen parçacıklar ve zayıf ışık, denizyıldızı saymak veya deniz tabanındaki boruları kontrol etmek gibi basit görevleri bile şaşırtıcı derecede güçleştirebilir. Bu çalışma, su altı robotlarının ve kameraların görünüm bulanık veya kirli olsa bile küçük deniz canlılarını daha doğru ve hızlı şekilde tespit etmesine yardımcı olan yeni bir bilgisayarlı görme yöntemi sunar.

Su Altı Görüşünün Neden Bu Kadar Zor Olduğu
Havadan farklı olarak su ışığı özellikle kırmızı ve sarı dalga boylarında kırar ve saçılmasına neden olur; bu da gözlerimizin kontrast için güvendiği renkleri etkiler. Su altı görüntüleri sıklıkla mavi-yeşil, puslu ve ayrıntı açısından zayıf görünür; yüzen parçacıklardan gelen parlak geri saçılma de ek sorun çıkarır. Taraş veya deniz kestanesi gibi küçük hayvanlar bir resimde yalnızca birkaç piksel işgal edebilir ve kolayca kaya, kum veya deniz yosununa karışabilir. Aslen keskin kara görüntüleri için tasarlanmış geleneksel nesne algılama yazılımları bu sönük hedefleri kaçırma veya arka plan karmaşasını gerçek canlılar sanma eğilimindedir. Aynı zamanda su altı robotları ve sensörleri genellikle sınırlı donanım üzerinde çalışır; bu yüzden algılama yöntemi yalnızca doğru değil, aynı zamanda hızlı ve hafif olmalıdır.
Gürültülü Görüntüleri Okumanın Daha Hızlı Bir Yolu
Yazarlar, bir görüntüyü küçük bir pencere üzerinde kaydırmak yerine onun bütün parçaları arasındaki ilişkileri öğrenerek tarayan Detection Transformer ailesinin son modelleri üzerine inşa ediyor. Bu varyant, önceki RT-DETR sisteminin gerçek zamanlı hızını korurken, FasterFDBlock adını verdikleri yeni bir omurga ile değiştirilmiş; bu omurga gürültülü su altı sahnelerine daha iyi uyum sağlıyor. Bu omurga, zaman kazandırmak için görüntü kanallarının yalnızca bir kısmını işleyen kısmi konvolüsyon adlı bir numarayı, görüntünün frekans tabanlı bir görünümüyle birleştiriyor. Frekans alanında çalışarak model rastgele benekli gürültüyü, hayvanları çevreleyen keskin kenarlardan ayırt edebiliyor; öncekini azaltıp sonuncuyu koruyarak gereksiz hesaplamayı kıstlıyor.
Küçük Canlıları Odakta Tutmak
Derin görme ağları, daha yüksek düzeyde desenleri çıkarmak için bir görüntüyü tekrarlayan şekilde küçültürken ince ayrıntıları kaybetme eğilimindedir. Bu, zaten görülme sınırında olan küçük taraklar veya denizyıldızlarının tespitinde ölümcül olabilir. Bunu önlemek için araştırmacılar kodlayıcıdaki temel dikkat bloğunu yeniden tasarlayarak AIFI-SEFN adını verdikleri bir yapı oluşturuyor. Basitçe söylemek gerekirse, bu modülün bir dalı dikkati kullanarak bütünü incelerken, eşlik eden dalı yerel doku ve şekle odaklanır. Özellikleri ölçekler arasında toplar ve genişletir, kenarları ve desenleri yakalamak için hafif konvolüsyonlar kullanır ve ardından bu ayrıntıdan ne kadarının geçirilmesine izin verileceğini kapılayarak kontrol eder. Sonuç, küresel bağlam ile net yerel yapının daha zengin bir karışımıdır; böylece küçük canlılar kaba deniz tabanı ve bitkiler arasında daha belirgin hale gelir.

Ölçekler Arası Bilgiyi Harmanlamak
Su altı görüntüleri nadiren tek bir boyutta nesne içerir; aynı tür organizma uzakta küçük bir nokta veya ön planda büyük bir leke olarak görünebilir. Sığ ve derin katmanlardan gelen bilgileri basitçe toplamak, küçük ayrıntıları ağır üst düzey sinyallerin altında gömebilir veya yüzeysel gürültünün sahneyi bastırmasına izin verebilir. Yeni Çok-Ölçekli Özellik Modülasyonu, her katmanın ne gördüğünü küresel havuzlama ile özetleyerek işe başlıyor, ardından her kanal için semantik ve ayrıntılı özelliklere uyarlanabilir ağırlıklar atıyor. Bu ağırlıklar her zaman bire eşit toplandığından model kanal kanal ayrıntı mı yoksa geniş bağlam mı daha önemli kararını vermek zorunda kalıyor. Bu seçici harmanlama gerçek hedeflerin sinyallerini güçlendirirken kayalar, kum ve gölgeler gibi dikkat dağıtıcı unsurları zayıflatıyor, üstelik çok az ek maliyetle.
Yöntem Ne Kadar İyi Çalışıyor
Ekip, deniz hıyarı, deniz kestanesi, tarak ve denizyıldızı gibi birçok küçük, örtüşen veya kısmen gizlenmiş nesneyi içeren zorlu bir halka açık su altı görüntü veri kümesinde yaklaşımlarını test etti. Orijinal RT-DETR modeline kıyasla, yeni sistem standart tespit puanını (ortalama Ortalama Doğruluk) %70.4'ten %72.1'e yükseltirken parametre sayısını dörtte birden fazla azalttı ve hesaplama miktarını yaklaşık dörtte bir azalttı. Hâlâ tipik grafik donanımında gerçek zamanlı kullanım için yeterli olan saniyede 70 kare üzerinde çalışıyor. Isı haritaları ve tespit sonuçlarının görsel karşılaştırmaları, geliştirilmiş modelin gerçek hayvanlara daha sıkı kilitlendiğini, kayalardaki ve yosunlardaki yanıltıcı dokuları görmezden geldiğini ve bulanık veya düşük ışıklı sahnelerde daha çok küçük veya düşük kontrastlı hedefi geri kazandığını gösteriyor.
Su Altı Çalışmaları İçin Ne Anlama Geliyor
Günlük terimlerle, bu araştırma eğik, hızlı bir modeli dünyanın en zorlu görsel ortamlarından birinde daha iyi görmeyi nasıl öğreteceğini gösteriyor. Ağın gürültülü frekanslarla, yerel ayrıntılarla ve farklı ölçeklerdeki özelliklerle nasıl başa çıktığını dikkatle biçimlendirerek yazarlar su altı nesne algılama işini hem daha doğru hem de daha verimli hale getiriyor. Bu denge, sınırlı hesaplama gücüyle hızlı ve güvenilir kararlar almak zorunda olan özerk su altı araçları ve diğer saha sistemleri için önemlidir. Bu yöntemler daha fazla veri kümesine ve gömülü platforma uyarlanırken, deniz yaşamını izlemeye, mühendislerin su altı yapıları denetlemesine ve robotların karmaşık deniz tabanı arazi yapısında daha güvenle gezinmesine yardımcı olabilir.
Atıf: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9
Anahtar kelimeler: su altı nesne algılama, özerk su altı araçları, gerçek zamanlı görme, küçük nesne tanıma, frekans-domain özellikleri