Clear Sky Science · tr
IASUNet: geliştirilmiş attention Swin-UperNet tabanlı bina çıkarımı
Uzaydan her binayı tespit etmenin önemi
Şehirler büyüdükçe ve iklim değiştikçe, binaların tam olarak nerede olduğu—ve zaman içinde nasıl değiştikleri—bilmek hayati hale geldi. Daha güvenli mahalleler planlamaktan kaçak yapı izlemeye, seller veya depremler sonrası afet müdahalesini yönlendirmeye kadar, ayrıntılı bina haritaları artık akıllı ve dayanıklı şehirlerin temel bileşenlerinden biri. Bu makale, yüksek çözünürlüklü uydu görüntülerinden binaları otomatik olarak seçmeyi öğrenen ve gerçek dünyadaki karmaşık, kalabalık sahnelerde bile dikkat çekici bir doğruluk gösteren yeni bir yapay zeka sistemi olan IASUNet’i tanıtıyor.

Şehirleri yukarıdan görmek
Modern uydular, bireysel çatıları, yolları ve hatta dar sokakları bile ortaya çıkaracak kadar olağanüstü ayrıntıda Dünya’yı fotoğraflayabiliyor. Ancak bu pikseller denizini temiz bina haritalarına dönüştürmek kolay değil. Binalar boyut, şekil, renk ve çevre açısından büyük çeşitlilik gösterir: şehir merkezlerindeki cam kuleler, banliyölerdeki alçak evler, kırsaldaki dağınık çiftlik yapıları. Kırsal veya karışık alanlarda binalar her görüntünün yalnızca çok küçük bir kısmını kaplarken bitki örtüsü, toprak ve su baskın olabilir. Geleneksel bilgisayarlı görü yöntemleri, çoğunlukla konvolüsyonel sinir ağlarına dayandığından, bir bütün sahne üzerindeki büyük resmi yakalarken ince sınırları korumakta zorlanabilir; bu da küçük yapılar kaçırılmasına veya kenarların bulanıklaşmasına yol açar.
Detaylara daha akıllı bir dikkat
IASUNet, iki güçlü fikri birleştirerek bu zorlukların üstesinden geliyor: Swin Transformer olarak adlandırılan Transformer tabanlı bir kodlayıcı ve UperNet olarak bilinen esnek bir kod çözücü. Swin Transformer, bir görüntüyü birçok küçük yama hâline getirir ve yalnızca sabit boyutlu pencere içinde bakmak yerine bu yamaların tüm sahne boyunca birbirleriyle nasıl ilişkili olduğunu öğrenir. Bu, modelin geniş bağlamı—örneğin parlak bir dikdörtgenin yoğun bir şehir bloğunun içinde mi yoksa izole bir tarlada mı olduğu—anlamasına yardımcı olurken ayrıntıları da korur. Bunun üzerinde, yazarlar birkaç aşamada Konvolüsyonel Blok Dikkat Modülü (CBAM) adlı bir dikkat mekanizmasını entegre ediyor. CBAM, kanal kanal ve bölge bölge hangi görüntü özelliklerinin muhtemelen bina olduğunu, hangilerinin arka plan karmaşası olduğunu öğrenir; bina özelliklerini güçlendirir ve çözücünün her şeyi tam bir bina haritasına dökmeden önce arka planı baskılar.
Binaların nadir olduğu durumlarda dengeleri kurmak
Diğer pratik bir engel dengesizliktir: birçok uydu sahnesinde piksellerin çoğu yolları, tarlaları, ağaçları veya suyu gösterirken binalar yalnızca küçük adacıklar kaplar. Standart eğitim yöntemleri, en sık görülenleri tercih etme eğilimindedir; bu da modelin daha az görülen binaları göz ardı etme riskini taşır. Bunu dengelemek için yazarlar Focal Cross‑Entropy adı verilen bir kayıp fonksiyonunu uyarlıyor. Bu strateji, “kolay” arka plan piksellerinin etkisini azaltır ve eğitimin sırasında sınıflandırması zor bina piksellerinin etkisini artırır. Sonuç olarak, model küçük, soluk veya sıra dışı yapılar gibi aksi halde gözden kaçabilecek öğelere ekstra dikkat gösterir; bu da yanlış alarmları artırmadan geri çağırmayı (recall) iyileştirir.

Modeli teste koymak
Ekip, IASUNet’i Almanya, Yeni Zelanda ve Amerika Birleşik Devletleri’nden üç iyi bilinen bina veri kümesi üzerinde ve ayrıca kendilerinin titizlikle hazırlayıp kalite kontrolünü yaptığı bir Çin uydu görüntüleri koleksiyonunda test etti. Bu kıyaslamalarda IASUNet, güçlü konvolüsyonel ağlar ve diğer Transformer tabanlı modeller dahil olmak üzere önde gelen yaklaşımlarla karşılaştırıldığında tutarlı biçimde eşleşti veya daha iyi performans gösterdi. Ultra ayrıntılı Potsdam veri kümesinde, tahmin edilen ve gerçek bina bölgeleri arasında neredeyse mükemmele yakın örtüşme sağlarken, modern grafik donanımında pratik hızlarla çalışmaya devam etti. Binaların dağınık olduğu, kısmen gizlendiği veya sıkışık bulunduğu daha düzensiz arazilerde bile IASUNet daha temiz konturlar çizdi, daha fazla küçük hedef yakaladı ve rakip yöntemlerde görülen birçok atlama ve sınır hatasından kaçındı.
Pikselden daha iyi şehirlere
Günlük ifadeyle çalışma, artık bilgisayarlara yörüngeden şehir manzaralarını benzeri görülmemiş bir netlikle okumayı öğretebileceğimizi gösteriyor. Modelin "dikkatini" bir görüntünün doğru kısımlarına dikkatle yönlendirerek ve nadir ama kritik bina piksellerini kasıtlı olarak ağırlıklandırarak, IASUNet ham uydu görüntülerini makul ek hesaplama maliyetiyle doğru, güncel bina haritalarına dönüştürüyor. Bu tür haritalar kentsel planlama, enerji ve ısı adası çalışmaları, arazi kullanım düzenlemeleri ve afetler sonrası hızlı hasar tespitine katkıda bulunabilir. İşin özü teknik olsa da sonuç basit: daha akıllı yapay zeka, karar vericilere yapılandırılmış çevrenin daha keskin, daha güvenilir bir görünümünü sunarak şehirlerin daha güvenli ve daha sürdürülebilir biçimde büyümesine yardımcı olabilir.
Atıf: Zhang, H., Ma, Y., Wang, G. et al. IASUNet: building extraction based on impoved attention Swin-UperNet. Sci Rep 16, 7969 (2026). https://doi.org/10.1038/s41598-026-36270-2
Anahtar kelimeler: uzaktan algılama, bina çıkarımı, anlamsal segmentasyon, transformer ağları, kentsel haritalama