Clear Sky Science · tr
SAT: akış tahmini olmadan video gürültü giderme için kaydırma hizalayıcı dönüştürücü
Gürültülü sahnelerden daha keskin videolar
Gece iç mekânda veya sınırlı ışıklı bir telefonla çekim yapmayı denemiş olan herkes sonucun ne olduğunu bilir: ayrıntıların sürünüyormuş gibi göründüğü, renklerin yanlış göründüğü kumlu, titreyen videolar. Bu makale, bu tür videoları ağır hizmet hareket-izleme yazılımına dayanmak zorunda kalmadan temizlemenin yeni bir yolunu sunuyor. Kaydırma Hizalayıcı Dönüştürücü (Shift Alignment Transformer) adındaki yöntem, ince detayları korurken pratik olacak kadar verimli çalışacak şekilde tasarlanmıştır.
Videoyu temizlemenin neden bu kadar zor olduğu
Tek bir fotoğraftan gürültüyü temizlemek zaten zordur; aynı işi video için yapmak daha da zordur. Bir yandan her kare rastgele lekeler ve renk sapmalarıyla bozulur. Öte yandan kareler zaman içinde birbirine bağlıdır: nesneler hareket eder, kamera titrer ve detaylar ortaya çıkar ya da kaybolur. Geleneksel video gürültü giderme yöntemleri genellikle kareler arasındaki hareketi tahmin etmeye dayanır; bunun için optik akış adı verilen ve her pikselin bir kareden diğerine nasıl hareket ettiğini izlemeye çalışan bir araç sıklıkla kullanılır. Güçlü olmasına rağmen, bu hareket tahminleri video çok gürültülü olduğunda veya hareket hızlı ve karmaşıksa kolayca bozulabilir ve ayrıca büyük bir hesaplama yükü getirerek sistemleri yavaşlatabilir.
İzleme olmadan hizalamanın yeni yolu
Her pikseli açıkça takip etmeye çalışmak yerine, Kaydırma Hizalayıcı Dönüştürücü (SAT) farklı bir yol izler: ağın karelerin nasıl ilişkili olduğunu örtük olarak keşfetmesine izin verir, özellikleri dikkatle kaydırıp karşılaştırarak. Model, veride uzun menzilli bağlantıları bulmada başarılı olan çağdaş bir mimari olan Dönüştürücü (Transformer) etrafında kuruludur. Bu çerçevede yazarlar, hem uzayda hem zamanda bilgiyi nazikçe karıştıran Mekansal-Zamansal Kaydırma Modülü'nü sunarlar. Zamanda, model katman katman kare özelliklerini döngüsel olarak kaydırır, böylece her katmanda bir kare geçmişe ve geleceğe daha fazla “bakabilir”. Uzayda ise özellikleri birçok küçük gruba böler ve her grubu farklı yönlere iter. Bu kombinasyon, nesnelerin videoda nasıl hareket edebileceğini etkili bir şekilde taklit eder ve ağın farklı karelerden gelen bilgileri açıkça bir hareket alanı hesaplamadan hizalamasına olanak tanır.

Yeni yapı taşları nasıl çalışıyor
Bu kaydırmalardan en iyi şekilde yararlanmak için yazarlar, kareler içinde ve kareler arasında bilgiyi karıştıran özel bir dikkat bloğu tasarlar. Öncelikle, komşu karelerden gelen kaydırılmış özellikler bir araya getirilir ve çapraz-dikkat (cross-attention) işlemiyle karşılaştırılır: model, her konum için diğer karelerde hangi bölgelerin mevcut kareye en iyi desteği sağladığını öğrenir. Aynı zamanda, ayrı bir dikkat işlemi her tek kare içindeki ilişkiler üzerine odaklanır, yerel yapı ve dokuyu güçlendirir. Bu iki akım daha sonra birleştirilir ve kaba çözünürlükten inceye ve geri giden çok ölçekli U biçimli bir ağ içinde basit işleme katmanlarından geçirilir. Bu düzenleme, sistemin hem büyük kamera hareketleriyle hem de ince kenarlar ya da küçük desenler gibi küçük ayrıntılarla başa çıkmasını sağlar ve her karenin temiz bir versiyonunu kademeli olarak yeniden inşa eder.

Uygulamada ne kadar iyi çalıştığı
Araştırmacılar yaklaşımını iki zorlu ölçüt setinde test ederler. Birincisi, farklı seviyelerde rastgele gürültüyle yapay olarak bozulmuş temiz videoları içerir; bu, geri kazanılan karelerin orijinallere ne kadar yakın olduğunu hassas biçimde ölçmelerini sağlar. Burada yeni yöntem, önceki konvolüsyonel ve tekrarlayan ağların kalitesisine tutarlı şekilde eşdeğer veya üstün performans gösterir ve daha az hesaplama kullanarak en iyi Dönüştürücü tabanlı modellerin yanına yaklaşır. İkinci ölçüt gerçek sensörlerden düşük ışıkta çekilmiş görüntüleri kullanır; bu durumda gürültü düzensiz, renkli ve çok daha öngörülemezdir. Bu daha gerçekçi testte Kaydırma Hizalayıcı Dönüştürücü, önceki son teknoloji yöntemleri belirgin şekilde geride bırakır; daha temiz, daha keskin ve zaman içinde daha kararlı videolar üretir, daha az renk kayması ve daha az kalan artefakt ile.
Gelecekteki video araçları için ne anlama geliyor
Basitçe söylemek gerekirse yazarlar, zamanı ve mekanı akıllıca kaydırma ile dikkat tabanlı özellik eşleştirmesini birleştirerek hareketi açıkça izlemeye gerek kalmadan videoları etkili biçimde gürültüden arındırmanın mümkün olduğunu gösterirler. Kaydırma Hizalayıcı Dönüştürücü, özellikle geleneksel hareket tahmininin kırılgan olduğu gerçek dünya düşük ışık görüntüleri için doğruluk ve verimlilik arasında güçlü bir denge sunar. Dikkat tabanlı modeller daha verimli hâle geldikçe, bu tür yöntemler günlük kameralara ve akış hizmetlerine entegre olabilir ve kullanıcının zahmet çekmeden gürültülü, izlemesi zor klipleri düzgün, keskin videolara dönüştürmesine yardımcı olabilir.
Atıf: Zhang, X., Fan, S., Zhang, H. et al. SAT: shift alignment transformer for video denoising without flow estimation. Sci Rep 16, 8207 (2026). https://doi.org/10.1038/s41598-026-38431-9
Anahtar kelimeler: video gürültü giderme, dönüştürücü, görüntü gürültüsü, ışık düşük video, bilgisayarlı görü