Clear Sky Science · tr
RAID-Veri Kümesi: afine görüntü bozulmalarına ve Gauss gürültüsüne insan tepkileri
Gözleriniz için neden küçük görüntü değişiklikleri önemli
Her gün, gözleriniz yatık, yakınlaştırılmış, kaydırılmış veya biraz grenli fotoğraflarla zahmetsizce başa çıkar—telefonunuzla hareketli bir konuyu çekerken veya biraz bulanık sosyal medya görsellerine göz kaydırırken aklınıza gelen görüntüler gibi. Peki insanlar bu değişiklikleri tam olarak nasıl algılıyor ve bilgisayarlar görüntü kalitesini bizim değerlendirdiğimiz şekilde öğrenebilir mi? Bu makale, RAID adındaki yeni bir veri kümesini tanıtıyor; bu küme, insan gözlemcilerin basit fakat yaygın görüntü bozulmalarına verdiği tepkileri dikkatle ölçerek günlük görsel deneyim ile kameralar, yayın servisleri ve yapay zekâyı besleyen algoritmalar arasında bir köprü kuruyor.

Sık karşılaşılan resim ayarlamaları teste tabi tutuldu
Araştırmacılar, gerçek dünyada ve dijital görüntülerde sürekli meydana gelen dört çok temel değişikliğe odaklandı: döndürme (görüntüyü yatırma), öteleme (yanay kaydırma), ölçekleme (yakınlaştırma veya uzaklaştırma) ve Gauss gürültüsü olarak bilinen grenli lekelerin eklenmesi. Sık kullanılan görüntü kalite veri tabanlarının çoğunun sıkıştırma artefaktları veya dijital hatalara ağırlık vermesinin aksine, bu dönüşümler başınızı hareket ettirdiğinizde, bakışınızı kaydırdığınızda veya nesneler hareket edip aydınlatma değiştiğinde gerçekleşeni taklit ediyor. İyi bilinen bir Kodak renkli fotoğraf koleksiyonundan alınan 24 doğal fotoğraf kullanılarak ekip, her bozulma için dokuz artan seviyenin yanı sıra orijinali de ekleyerek toplamda 888 görüntü oluşturdu.
İnsanlar görsel farklılıkları nasıl karşılaştırdı
Bu değişikliklerin ne kadar fark edilir olduğunu öğrenmek için 210 gönüllü kontrollü bir laboratuvara geldi, kalibre monitörlerin önüne oturdu ve 40.000’den fazla deneye katıldı. Her deneyde ekranda iki çift görüntü görüyorlardı ve basit bir soruyu yanıtlamaları gerekiyordu: hangi çift birbirinden daha farklı görünüyor, sol çift mi yoksa sağ çift mi? Görme bilimi literatüründe Maksimum Olabilirlik Fark Ölçekleme (Maximum Likelihood Difference Scaling) olarak bilinen bu yöntem, araştırmacıların çok sayıda seçimi her bir bozulma için pürüzsüz bir “algısal ölçeğe” dönüştürmesine olanak sağladı. Ölçekteki her nokta, belirli bir bozulma seviyesinin ortalama gözlemci için neredeyse farkedilmezden belirgin olana kadar ne kadar güçlü hissettirdiğini gösterir.

Beynin ne kadar hızlı tepki verdiğini zamanlama
Kişiler seçimlerini yaparken deney aynı zamanda tepki sürelerini de kaydetti. Bu tepki süreleri, algının diğer alanlarında görülen klasik bir deseni açığa çıkardı: görüntüler arasındaki fark çok küçük veya aşırı büyük olduğunda insanlar nispeten hızlı yanıt verirken, orta zorlukta yavaşlıyorlardı. Bozulmalar güçlendikçe görsel sistem hangi çiftin daha farklı olduğuna karar vermek için daha az zamana ihtiyaç duydu. Bu davranış psikolojide iyi bilinen Piéron yasasıyla uyum gösteriyor; bu yasa daha güçlü duyusal sinyallerle daha hızlı yanıtları ilişkilendirir ve veri kümesinin insanların kararlarındaki rastgele gürültüden ziyade gerçek görsel özellikleri yakaladığını destekliyor.
Mevcut kalite puanlarıyla karşılaştırma
Yeni verileri, halihazırda yerleşik görüntü kalite kıyaslarına güvenen mühendisler ve bilim insanları için kullanışlı kılmak amacıyla yazarlar, gürültülü görüntüler için ölçümlerini insanların tipik bir “görüş puanı” ölçeğinde görüntü kalitesini derecelendirdiği popüler bir veri tabanı olan TID2013’ün puanlarıyla karşılaştırdı. Güçlü, neredeyse doğrusal bir ilişki buldular: RAID gözlemcilerinin daha fark edilir bulduğu bozulmalar TID2013’te de daha düşük kalite puanları alma eğilimindeydi. Bu bağlantı, algısal ölçek değerlerini standart görüş puanlarına dönüştürecek basit bir formül türetmelerine izin verdi; bu da RAID’i eski veri kümeleriyle birleştirmeyi ve mevcut değerlendirme hatlarına takmayı kolaylaştırıyor.
Görme ve yapay zekâ için neden önemli
Önceki çalışmalarla uyumlu olmasının ötesinde, yeni veri kümesi titiz ölçümlerinin geleneksel görüş puanlarından üstün olduğu durumları da vurguluyor. Bir yöntemin bozulmaları benzer, diğerinin ise çok farklı olduğunu söylediği görüntü çiftlerini kasıtlı olarak arayıp sonra insanlara hangisinin doğru olduğunu sormak suretiyle yazarlar, yaklaşımlarının izleyicilerin gerçekte gördükleriyle daha iyi örtüştüğünü gösteriyor. Veri kümesi ayrıca sezgisel desenleri ortaya koyuyor: hafif bir eğiklik, güçlü bir ufuk çizgisine sahip bir deniz manzarasında açığa daha çabuk çıkar; yoğun açılı şekillerle dolu karmaşık bir sahnede ise daha az dikkat çeker; ve gürültü, ayrıntılı dokulardan ziyade düz gökyüzü üzerinde daha belirgindir. Bir araya getirildiğinde bu sonuçlar, RAID’in günlük resim değişikliklerini fark etme şeklimizi daha insan merkezli ve zengin bir biçimde tanımladığını; insan görüsü modellerini ve dünyayı bizim gördüğümüz gibi görmeyi amaçlayan yapay zekâ sistemlerini geliştirmek için sağlam bir test zemini sunduğunu gösteriyor.
Atıf: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0
Anahtar kelimeler: görüntü kalitesi, insan görüsü, görsel algı, görüntü bozulmaları, psikofizik