Clear Sky Science · tr

DMSCA: evrişimsel sinir ağlarında geliştirilmiş özellik temsili için dinamik çok ölçekli kanal-mekân dikkat mekanizması

2026-02-10 · Dizine geri dön

Bilgisayarlara Daha İyi Dikkat Etmeyi Öğretmek

Günümüz görüntü tanıma sistemleri kedileri, trafik işaretlerini ve taramalardaki tümörleri tespit edebiliyor—ancak bir resmin içinde nereye odaklanmaları gerektiğini her zaman bilmiyorlar. Bu makale, bu sistemlerin bir görüntünün en önemli bölümlerine daha etkili şekilde yoğunlaşmasına yardımcı olarak doğruluğu artıran ve gerçek yaşamın karmaşık koşullarında daha güvenilir hale getiren yeni bir yaklaşım sunuyor. Dinamik Çok Ölçekli Kanal-Mekân Dikkati (DMSCA) adı verilen yöntem, mevcut evrişimsel sinir ağlarına takılabiliyor ve onların bir görüntüdeki “ne”yi ve “nerede”yi daha akıllıca görmesine yardımcı oluyor.

Makine Görüşünde Odaklanmanın Önemi

Birçok görsel uygulamanın arkasındaki iş atları olan evrişimsel sinir ağları, iç sinyallerin her birini genellikle eşit önemde kabul eder. Bu, bir kuşun kanadının soluk bir kenarı ile gökyüzüne ait bir yamanın benzer dikkati alabileceği anlamına gelir; oysa yalnızca biri türü tanımlamada yardımcıdır. Önceki “dikkat” yöntemleri bazı iç sinyalleri diğerlerinden daha fazla ağırlıklandırmaya çalıştı—ya kanal benzeri renk bileşenleri boyunca ya da görüntünün iki boyutlu düzeni boyunca. Ancak bu yöntemler sıklıkla sabit, elle tasarlanmış kurallar kullandı, aynı anda yalnızca tek bir ayrıntı ölçeğine baktı veya farklı görüntülere uyum sağlayamayan katı bir şekilde bilgi birleştirdi. Sonuç olarak, ince ayrıntıları kaçırdılar, “yatay vs. dikey” gibi yönleri göz ardı ettiler veya görüntüler gürültülü ya da bulanıksa zorlandılar.

Daha Akıllı Bir Dikkat Eklentisi

DMSCA, ResNet gibi bilinen sinir ağlarının genel yapısını değiştirmeden eklenebilen küçük, takılabilir bir modül olarak tasarlandı. İçinde, birbirinden ayrı değil birlikte çalışan altı sıkı bağlı bölüm koordine eder. Bir bölüm küresel olarak ne olduğunu yakalamak için tüm görüntüyü özetlerken, başka bir bölüm her iç kanalın ne kadar önemli olması gerektiğini öğrenir ve kararlılığı daha keskin veya daha yumuşak yapabilen kontrol edilebilir bir “sıcaklık” kullanır. Mekânsal tarafta ise DMSCA, hem küçük dokuları hem de daha büyük şekilleri yakalamak için birden fazla pencere boyutunu eş zamanlı kullanır ve uzun kenarların veya çizgilerin yok olmaması için yatay ve dikey yönlere açıkça dikkat eder. Son olarak, bu sinyalleri basitçe toplamak yerine modül, kanal kaynaklı “ne” bilgisine karşı mekânsal “nerede” bilgisine hangi pikselde ne kadar güvenileceğini öğrenir.

Görüntülere Çok Ölçekte ve Yönlerde Bakmak

Bir görüntüde nereye bakılacağını anlamak için DMSCA önce birçok iç kanalı arka plan eğilimlerini ve öne çıkan özellikleri vurgulayan kompakt iki katmanlı bir haritaya sıkıştırır. Ardından bu haritayı farklı boyutlardaki birkaç paralel filtreden geçirir. Küçük filteler kürk veya tüy gibi ince ayrıntıları görürken, daha büyük filtreler tüm başlar veya gövdeler gibi şekilleri yakalar. Paralel olarak, yönsel bir birim satırlar ve sütunlar boyunca ayrı ayrı tarama yaparak önemli yapıların tam konumunu korur. Bu yatay ve dikey görünümler daha sonra etkileşime girebilir; örneğin güçlü bir dikey sinyal doğru yatay konumları güçlendirebilir. Ortaya çıkan zengin dikkat haritası, ağa yalnızca bir şeyin önemli olduğunu değil, ayrıca nerede olduğunu ve hangi ölçekte olduğunu da söyler.

Ağın En Önemli Olanı Kendisi Karar Versin

Bir görüntünün farklı bölümleri farklı stratejiler gerektirebileceğinden DMSCA, kanal ve mekânsal bilgiyi birleştirmek için sabit bir reçete dayatmaz. Bunun yerine, her piksel için bağımsız olarak her iki bilgiyi de inceleyen küçük bir “kapı” oluşturur ve hangi türe ne kadar ağırlık verileceğine karar verir. Kalabalık bir arka planda sistem hangi kanalların öne çıktığına daha fazla dayanabilirken, keskin nesne kenarlarında mekânsal ipuçlarını vurgulayabilir. Son bir adaptif aktivasyon aşaması ise öğrenilmiş bir karartma anahtarı gibi davranarak gerçekten bilgi taşıyan bölgeleri güçlendirir ve kalıntı gürültüyü azaltır. Bu çok aşamalı süreç, vurgulanan alanların yer gerçek nesnelerle ne kadar örtüştüğünü gösteren görsel ısı haritaları ve nicel ölçümlerle doğrulandığı üzere, ağın dikkatini nesneyle ilişkili, tutarlı bölgelere yönlendirmeye yardımcı olur.

Makul Ek Maliyetle Daha Keskin Görüş

Yazarlar DMSCA’yı küçük resim koleksiyonlarından büyük ölçekli ImageNet veri setine kadar çeşitli standart kıyas setlerinde test ettiler. Popüler ResNet modellerine eklendiğinde DMSCA sınıflandırma doğruluğunu tutarlı biçimde artırdı—küçük veri setlerinde yaklaşık 2 puana, ImageNet’te ise yaklaşık 1,5 puana kadar—ve mevcut birçok dikkat yöntemini geride bıraktı. Ayrıca modelleri gürültü, bulanıklık ve ağır sıkıştırma gibi yaygın görüntü bozulmalarına karşı daha dayanıklı hâle getirdi ve nesne algılama ile sahne etiketleme gibi ilişkili görevlerde performansı yükseltti. Bu kazanımlar yalnızca makul bir hesaplama ve bellek artışıyla elde edildi. Basitçe söylemek gerekirse, DMSCA evrişimsel ağlara neye bakılacağına ve neyin göz ardı edileceğine karar vermede daha esnek ve bağlama duyarlı bir yol sunarak makine görüşünü insan görüşünün seçici odaklanmasına bir adım daha yaklaştırıyor.

Atıf: Zong, L., Nan, S.J., Die, Z.F. et al. DMSCA: dynamic multi-scale channel-spatial attention for enhanced feature representation in convolutional neural networks. Sci Rep 16, 8044 (2026). https://doi.org/10.1038/s41598-026-37546-3

Anahtar kelimeler: dikkat mekanizmaları, görüntü tanıma, evrişimsel sinir ağları, özellik temsili, sağlam bilgisayarlı görü