Clear Sky Science · tr
Stabil diffusion ile üretken veri arttırma yoluyla derin deniz görüntülerinde nadir sınıf tespitinin iyileştirilmesi
Neden nadir derin deniz yaşamını fark etmek zor?
OKyanus yüzeyinin çok altında, deniz tabanında yaşayan büyük hayvanlar derin deniz ekosistemlerinin sağlığını korumaya yardımcı olur. Bu canlılar aynı zamanda artan deniz tabanı madenciliği ilgisinin doğrudan odağında yer alıyor. Bilim insanları, bunları güvenilir şekilde bulup sayabilecek otomatik kamera sistemleri istiyor, fakat bir sorun var: birçok tür yalnızca birkaç kez görülüyor. Bu çalışma, modern görüntü üreten yapay zekânın nadir türlerden gerçekçi ek örnekler oluşturup tespit yazılımlarının daha doğru olmasına nasıl yardımcı olabileceğini; daha fazla araştırma gemisi göndermeden inceliyor.
Ulaşılamayan bir dünyada fotoğraf çekmek
Araştırmacılar, batı Pasifik’teki bir polimetalik nodül sahasında çekilmiş iki büyük deniz tabanı fotoğraf koleksiyonu ile çalıştı. Bir set, tabanın birkaç metre üzerinde sürüklenen sabit bağlı (tethered) bir kamera sisteminden; diğeri ise serbest yüzen bir robottan geldi. Birlikte, deniz hıyarları, süngerler, mercanlar, deniz yıldızları, kırık kol yıldızlar ve ahtapot dahil olmak üzere 16 hayvan türünü kapsadılar. Pek çok vahşi yaşam veri kümesinde olduğu gibi, örnek sayıları oldukça dengesizdi: birkaç yaygın hayvan sık görülürken, birkaç grup 50’den az etiketli örneğe sahipti. Çoğu hayvan her görüntünün yüzde on binde daha azını kapladığından ve kameraların 4.000 metreyi aşan derinliklerde işletilmesi maliyetli olduğundan, daha dengeli veri toplamak pratik değil.

Nadir deniz tabanı yaşamı hakkında bir görüntü üreteç eğitmek
Bu dengesizliği ele almak için araştırmacılar, difüzyon modeli olarak bilinen popüler bir görüntü üretme yöntemine yöneldi. Günlük sahneler üzerinde eğitilmiş güçlü, genel amaçlı bir sürümden başladılar ve onu deniz tabanı görüntülerine hafif bir ince ayarlama yöntemiyle nazikçe uyarladılar. Önce, bryozoa benzeri bazı mercanlar ve ahtapot gibi yedi nadir hayvan grubunun 175 net örneğini kırparak aldılar ve modeli her türün ikna edici yeni ön plan kesitleri çizmesi için eğittiler. Basit metin istemleri (prompt) farklı poz, renk, ışıklandırma ve görüş açısı değişikliklerini teşvik edecek şekilde çeşitlendirildi; böylece model yalnızca birkaç özgün fotoğrafı kopyalamak yerine gerçekçi yeni kombinasyonları keşfedecekti.
Sentezik hayvanları gerçekçi deniz tabanı sahnelerine karıştırmak
Nesne algılayıcılarının hem hayvanlara hem de çevrelerine ihtiyacı olduğundan, ikinci aşama arka planlar ve düzen üzerine odaklandı. Burada ekip, difüzyon modelini basit maske görüntüleriyle yönlendiren bir kontrol sistemi kullandı. Bu maskeler, her sentezik hayvanın nerede ve ne büyüklükte görünmesi gerektiğini, gerçek veride görülen boyut aralıklarına dayanarak belirtti. Model daha sonra sediman, kaya ve nodül desenleriyle eşleşen deniz tabanı arka planları üretti, ön plan hayvanları ışıklandırma ve renk açısından tutarlı biçimde yerleştirerek sorunsuzce harmanladı. Kritik olarak, her maske otomatik bir sınırlayıcı kutu (bounding box) da sağladı ve böylece hazır etiketler elde edildi. Kusurlu sonuçlar elendikten sonra, son sentezik set her nadir sınıf için 200 yüksek kaliteli örnek içeriyordu ve bunlar orijinal eğitim fotoğraflarıyla karıştırıldı.

Ek görüntüler ne kadar yardımcı oldu?
Geliştirilmiş veri seti, her karede hayvanları tespit edip etiketleyen modern bir tespit ağı eğitmek için kullanıldı. Hem sürüklenen kamera hem de serbest yüzen robot veri setlerinde, sentezik görüntülerin eklenmesi yalnızca gerçek fotoğraflarla eğitilmeye kıyasla ana doğruluk skorlarını yükseltti. Kazançlar en çok en nadir gruplarda göze çarptı: örneğin, ahtapot ve bryozoa için bir veri setinde performans 20 puandan fazla iyileşti ve diğer sette bryozoa ile hidrozoalarda benzer artışlar görüldü. Yöntem, rastgele kırpmalar, renk değişiklikleri ve kes-yapıştır (cut-and-paste) bileşimleri gibi standart numaralardan da daha başarılı oldu. Ayrıntılı hata analizi, en büyük iyileşmenin kutu yerleştirmeden çok türleri birbirinden ayırmadaki hataların azalmasından kaynaklandığını gösterdi.
Sınırlamalar, takaslar ve geleceğe yönelik yönler
Faydalar her yerde eşit değildi. Sentezik veri, gerçek hayvanların bile görmekte zor olduğu daha bulanık, daha uzak görüntülerde (serbest yüzen robottan alınanlar) daha az yardımcı oldu. Bir kamera sistemi üzerinde eğitilmiş modeller diğerinde test edildiğinde performans keskin biçimde düştü; bu da aydınlatma ve görüş mesafesindeki farkların hâlâ büyük bir zorluk olduğunu gösteriyor. Yazarlar ayrıca daha fazla sentezik verinin her zaman daha iyi olmadığını buldular: performans belli bir noktaya kadar iyileşip sonra düzelmeye başladı; bu da çeşitlilik doygunluğa ulaştığında ekstra görüntülerin çoğunlukla tekrarlılıktan ibaret olduğunu düşündürüyor. Gelecekte daha keskin yerelleştirme, çok küçük ve bulanık hedeflerin daha iyi ele alınması ve birden çok türü aynı anda kapsayan daha verimli üretken modeller üzerinde çalışmalar öneriyorlar.
Derin denizi izlemek için bunun anlamı nedir?
Basitçe söylemek gerekirse, çalışma dikkatle üretilmiş sahte görüntülerin otomatik sistemlerin gerçek tarama fotoğraflarında nadir derin deniz hayvanlarını bulma konusunda dikkate değer şekilde daha iyi hale gelmesini sağlayabileceğini gösteriyor. Algılayıcıları, sıra dışı türlerin birçok gerçekçi koşul altında nasıl görünebileceğini öğreterek, bu yaklaşım kaçan gözlemleri azaltıyor ve yaygın türlerde performansı bozmayıp koruyor. Gerçek seferler veya uzman kontroller gereksinimini ortadan kaldırmasa da, sınırlı veriyi daha verimli kullanmanın pratik bir yolunu sunuyor ve endüstriyel etkinliklerin daha derin sulara kaymasıyla kırılgan derin deniz habitatlarının daha güvenilir izlenmesini destekliyor.
Atıf: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6
Anahtar kelimeler: derin deniz görüntüleri, veri arttırma, stable diffusion, nadir tür tespiti, su altı robotikleri