Clear Sky Science · tr
İHA görüntülerinde gerçek zamanlı küçük nesne tespiti için işbirlikçi çoklu-dikkat ağı
Gökyüzünden küçük ayrıntıları fark etmenin önemi
Dronlar trafik izleme, afet müdahalesi ve güvenlik için yaygın araçlar haline geldikçe, yüksekten bakıldığında arabalar, bisikletler veya insanlar gibi çok küçük nesneleri güvenilir şekilde tespit edebilmeleri gerekir. Bu hava görüntülerinde hedefler yalnızca birkaç pikseldir ve gölgeler, parlamalar ve karmaşık arka planlar içinde kolayca kaybolur. Bu makale, Collaborative Multi-Attention Network (CMA-Net) adı verilen ve drone görüntülerinde böyle küçük nesneleri gerçek zamanlı kullanım için yeterince hızlı ve doğru şekilde tespit edecek yeni bir bilgisayarlı görü sistemini tanıtıyor.
Yüksekten küçük şeyleri görmenin zorlukları
Drone görüntülerinde küçük nesneleri tespit etmek sıradan sokak fotoğraflarından daha zordur. Dronlar yüksekten uçar ve sahneleri pek çok açıdan görüntülediği için araçlar ve insanlar küçük ve bulanık görünür, aydınlatma hızla değişebilir. Geleneksel iki aşamalı algılayıcılar çok doğru olabilir ancak sınırlı hesaplama gücü ve iletişim bant genişliğine sahip uçan platformlarda genellikle gerçek zamanlı kullanım için çok yavaştır. Daha hızlı tek aşamalı yöntemler gerçek zamanda çalışsa da görüntüler katman katman işlendiğinde küçük hedeflerin ayrıntıları giderek kaybolduğu için kaçırma eğilimindedir. Yazarlar, küçük nesne tespitinin daha iyi olması için farklı ölçeklerdeki bilgiyi akıllıca birleştirmenin ve hesaplamalı dikkati görüntünün en bilgilendirici kısımlarına yönlendirmenin gerektiğini savunuyor.

Daha akıllı bir özellik merdiveni inşa etmek
CMA-Net yaygın olarak kullanılan bir görüntü işleme omurgası, ResNet-50’den başlar ve ardından Efficient Bi-directional Feature Pyramid Network (E-BiFPN) ekler. Bu yapı, sistemin erken katmanlardaki ince ayrıntıları daha derin katmanlardaki soyut bağlamla karıştırmasına olanak veren farklı boyutlarda bir özellik haritası merdiveni oluşturur. Önceki tasarımların aksine E-BiFPN gereksiz üst düzey katmanları kırpar ve hesaplamayı azaltmak için kısmi konvolüsyonlar kullanan özel, hafif bir işleme bloğu ekler. Ağırlıklı bir füzyon şeması, her ölçekte sığ ve derin özelliklere ne kadar güvenileceğini öğrenir; böylece küçük araçlar veya yayalar hakkındaki hassas bilgiler güçlendirilirken arka plandan gelen gürültü azaltılır.
Ağın nereye bakacağını öğretmek
Özellikleri yeniden düzenlemenin ötesinde CMA-Net, insanların sahnedeki ilgili parçalara nasıl odaklandığını taklit eden dikkat mekanizmaları kullanır. Dual-Dimensional Channel Attention (DDCA) modülü, her şeyi tek bir küresel özet halinde sıkıştırmak yerine görüntünün genişliği ve yüksekliği boyunca özellikleri ayrı ayrı analiz eder. Bu tasarım, ağın hem yatay hem dikey yönde uzun menzilli desenleri yakalamasına yardımcı olur ve küçük nesneler karmaşık çevreye karıştığında hayati olan konum ipuçlarını korur. Paralel olarak, Multi-Scale Foreground Attention (MSFA) modülü daha derin katmanlardaki büyük, kolay tanınan nesneleri sığ katmanlardaki daha küçük nesnelerle ilişkilendirir. Üç ölçekten örnekleme ve bilgi füzyonu yaparak MSFA, araçların bulunma olasılığı yüksek olan ön plan bölgelerini vurgulamayı ve kafa karıştırıcı arka plan dokularını bastırmayı öğrenir.

Geliştirilmiş özelliklerden hızlı kararlara
DDCA ve MSFA dallarının çıktıları, "anchor-free" bir tespit başlığına aktarılan, küçük nesnelere uygun zengin özellik haritalarında birleştirilir. Önceden belirlenmiş yoğun kutu ızgarasına dayanmak yerine bu başlık doğrudan nesnelerin kategorisini ve konumunu tahmin eder; bu da hesaplamaları basitleştirir ve eğitimi daha esnek hale getirir. Yazarlar CMA-Net’i kalabalık yollar, değişken hava ve gündüz-gece koşullarını içeren iki zorlayıcı halka açık drone veriseti olan UAVDT ve Stanford Drone üzerinde değerlendirdi. CMA-Net bu veri setlerinde sırasıyla %67,2 ve %62,0 doğruluk puanları elde ederken saniyede 64 kare hızında çalıştı; yani video işlemede gerçek zamanlı çalışabilirken YOLO ailesinden bazı popüler detektörler ve daha karmaşık dönüştürücü (transformer) tabanlı modeller dahil olmak üzere birçok popüler detektörü geride bıraktı.
Gerçek dünya drone kullanımı için ne anlama geliyor
Uzman olmayanlar için temel çıkarım, CMA-Net’in bir dronun küçük, fark edilmesi zor nesneleri fark etme yeteneğini önemli ölçüde iyileştirirken hızını düşürmemesi. Birden çok ölçekte bilgiyi dikkatle birleştirip ağın dikkati hem görüntü kanalları arası hem de ön plan-arka plan ilişkisi boyunca yönlendirilerek yöntem, küçük araçların ve insanların gözden kaçmasını engelliyor. Bu doğruluk ve hız birleşimi, küçük bir nesnenin kaçırılmasının veya çok yavaş tepki verilmesinin ciddi sonuçlara yol açabileceği akıllı trafik izleme, kalabalık gözlemi ve acil müdahale gibi pratik uygulamalar için yaklaşımı umut verici kılıyor.
Atıf: Yang, J., Yue, X. & Wu, L. A collaborative multi-attention network for real-time small object detection in UAV imagery. Sci Rep 16, 5852 (2026). https://doi.org/10.1038/s41598-026-36440-2
Anahtar kelimeler: drone görüşü, küçük nesne tespiti, gerçek zamanlı gözetim, dikkat ağları, trafik izleme