Clear Sky Science · tr

SAM2-ARAFNet: yüksek çözünürlüklü uzaktan algılama için dikkatle güçlendirilmiş rezidüel ASPP füzyon ağı ile SAM2’yi uyarlama

· Dizine geri dön

Değişen Gezegenimize Dikkatli Bakışlar

Fırtına hasarını izlemekten şehir planlamasına rehberlik etmeye kadar hava ve uydu görüntüleri, dünyayı anlamamız için insanlığın en güçlü araçlarından biri haline geldi. Ancak bu ayrıntılı görüntüleri binalar, yollar, ağaçlar ve araçların net haritalarına dönüştürmek hâlâ şaşırtıcı derecede zor; özellikle bilgisayarların drone’larda veya küçük cihazlarda hızla çalışması gerektiğinde. Bu makale SAM2-ARAFNet’i sunar: güçlü bir görsel modelin üzerine inşa edilen ve dikkatle küçültülen yeni bir haritalama sistemi; yüksek çözünürlüklü görüntülerden son derece doğru arazi örtüsü haritaları üretmeyi hedeflerken günümüzün önde gelen yöntemlerine kıyasla çok daha az hesaplama gücü kullanmayı amaçlar.

Figure 1
Figure 1.

Yukarıdan Şehirleri Haritalamanın Neden Bu Kadar Zor Olduğu

Yüksek çözünürlüklü hava fotoğrafları şehirleri dikkat çekici bir ayrıntıda yakalar: tek tek evler, ağaç tepeleri, park edilmiş arabalar ve hatta dar kaldırımlar görülebilir. Ancak bu zenginlik zorlukları da beraberinde getirir. Aynı kategoriye ait yüzeyler —örneğin farklı türde kaldırım yüzeyleri— çok farklı görünebilirken, alçak çalılar ile ağaç tepeleri gibi ayrı sınıflar yanıltıcı şekilde benzer görünebilir. Görüntüler bulanık olabilir, gölgeler veya bulutlarla kısmen örtülü olabilir ve bölgeden bölgeye değişiklik gösterir. Geleneksel kural tabanlı yaklaşımlar ve önceki makine öğrenimi sistemleri bu çeşitlilikle başa çıkmakta zorlanır; modern derin ağlar bile genellikle büyük etiketli veri kümelerine ve güçlü donanıma ihtiyaç duyarak uydu, insansız hava araçları ve uç cihazlarda kullanımını sınırlar.

Genel Bir Görsel Modeli Uzaktan Algılamaya Uyarlamak

Güncel, devasa günlük fotoğraf koleksiyonları üzerinde eğitilmiş “temel modeller” görsel alanda hemen hemen her şeyi segmentleme konusunda etkileyici bir yetenek gösterdi. Bunların en güçlüsü olanlardan biri Segment Anything Model 2 (SAM2) olup, önceden hangi nesneler olduğu söylenmeden nesne konturlarını çizebilir. Ancak SAM2 doğal görüntülere göre ayarlanmıştır ve sınıf-bağımsız bölgeler üretir; bu da her piksele belirli bir arazi örtüsü etiketi ataması gereken uzaktan algılama görevleri için daha az uygun hale getirir. Bu nedenle yazarlar, SAM2-ARAFNet’i tasarlar: SAM2’nin güçlü kodlayıcısını donmuş halde korur ve hafif adaptör modülleri ekleyerek iç temsillerini hava görüntülerinin benzersiz görünümüne nazikçe uyarlamayı sağlar. Bu, devasa omurgayı baştan yeniden eğitmeden alan özel uyarlama sağlar.

Aynı Anda Hem Büyük Resmi Hem İnce Ayrıntıları Görmek

Kodlanmış özellikleri tam arazi örtüsü haritalarına dönüştürmek için SAM2-ARAFNet, çok ölçekli bilgiyi birleştiren özel tasarlanmış bir çözücü (decoder) kullanır. Daha düşük seviyelerde, erken özellik haritalarını birden çok dal ve bilgiyi vurgulayan, gürültüyü bastıran bir dikkat (attention) modülü aracılığıyla birleştirerek keskin kenarları ve küçük nesneleri korur. Daha yüksek seviyelerde ise alana dikkatle yayılan bir dikkat-güçlendirilmiş rezidüel modül sunar; bu modül, ağın binalar, yollar ve bitki örtüsünün birbirleriyle nasıl ilişkilendiği gibi daha geniş bağlamları anlamasına yardımcı olur. Ardından çift yönlü bir füzyon bloğu düşük seviyeli ayrıntı ile yüksek seviyeli anlamı bir araya getirir; örneğin, araç konturları yakındaki çatı veya asfaltlardan doğru şekilde ayırt edilerek net kalır.

Daha Küçük Bir Ağı Daha Büyüğünü Taklit Etmeye Öğretmek

Tam SAM2-ARAFNet modeli güçlü doğruluk sunarken, boyutu hâlâ yerinde konuşlandırma için ağırdır. Bunu ele almak için yazarlar, EfficientNet-b0 omurgası üzerine kurulu kompakt bir “öğrenci” ağı eğitirler ve büyük “öğretmen” modelin tahminlerini taklit etmesini sağlarlar. Sadece son etiketleri kopyalamak yerine öğrenci, öğretmenin daha zengin çıktı kalıplarından öğrenir; farklı sınıfların nasıl ilişkilendiğini ve aynı sınıf içindeki piksellerin sahne boyunca nasıl davrandığını yakalar. Bu bilgi distilasyonu süreci, parametre sayısını yaklaşık %97 oranında küçültür—yaklaşık 223 milyondan 6,7 milyona—ve genel doğruluk bakımından öğretmenin %99’unun üzerinde korunmasını sağlar. Sonuç, drone’lar ve diğer uç platformlar için uygun, hâlâ yüksek kaliteli segmentasyonlar üreten çok daha hafif bir modeldir.

Figure 2
Figure 2.

Gerçek Şehirlerde Ne Kadar İyi Çalışıyor?

Ekip, hem öğretmen hem öğrenci modellerini kentsel hava görüntüleri için yaygın olarak kullanılan iki kıyas veri setinde değerlendirir: ISPRS Vaihingen ve Potsdam. Konvolüsyonel ağlar, Transformerl ar ve hibrit tasarımlara dayalı geniş bir güçlü rakip yelpazesiyle karşılaştırıldığında, SAM2-ARAFNet segmentasyon kalitesinin standart ölçütlerinde tutarlı şekilde daha yüksek puanlar elde eder. Özellikle araçların binalarla kısmen örtüldüğü durumlar veya alçak bitki örtüsü, ağaçlar ve bina cepheleri etrafındaki karışıklık arasındaki ince geçişler gibi zorlu durumlarda etkili olur. Görsel karşılaştırmalar, çıktılarının daha temiz nesne sınırlarına ve daha az yanlış sınıflandırılmış yamaya sahip olduğunu gösterir; bu da çok ölçekli dikkat ve füzyon tasarımının faydalarını vurgular.

Kısıtlı Kaynaklar İçin Daha Akıllı Haritalar

Günlük ifadeyle, bu çalışma güçlü ama hantal bir görsel modelin hava görüntülerinden doğru ve verimli haritalar oluşturmak üzere nasıl uyarlanıp inceltilebileceğini gösterir. SAM2’nin güçlü kodlayıcısını yeniden kullanarak, çok ölçekli dikkat modüllerini özenle tasarlayarak ve ardından bu bilgiyi hafif bir öğrenciye distile ederek, SAM2-ARAFNet çok daha az hesaplama maliyetiyle ayrıntılı kentsel arazi örtüsü haritaları sunar. Bu doğruluk ve verim dengesi, çevresel izleme, afet değerlendirmesi ve sürekli bulut bağlantısına güvenemeyen uydular, drone’lar veya diğer cihazlar üzerinde şehir yönetimi için umut verici bir araç haline getirir.

Atıf: Shi, W., Ding, J., Lei, J. et al. SAM2-ARAFNet: adapting SAM2 with an attention-enhanced residual ASPP fusion network for high-resolution remote sensing semantic segmentation. Sci Rep 16, 10225 (2026). https://doi.org/10.1038/s41598-026-38047-z

Anahtar kelimeler: uzaktan algılama, anlamsal segmentasyon, uydu görüntüleri, derin öğrenme, bilgi distilasyonu