Clear Sky Science · tr

Görselliğin dağıtımdan sapma modellemesi için sentetik görüntülerin yer aldığı 7T fMRI veri kümesi

· Dizine geri dön

Görme ve Yapay Zekâyı Anlamada Neden Önemli

Gözlerimiz her gün ormanlardan ve yüzlerden sokak levhalarına ve ekran gürültüsüne kadar çok çeşitli görüntüler alıyor. Yine de çoğu beyin ve yapay zekâ çalışması bu görsel dünyanın dar bir kesiti üzerine kurulu: doğal sahnelerin fotoğrafları. Bu makale, konfor alanından kasıtlı olarak çıkan yeni bir beyin veri kümesi tanıtıyor; insan görüsüne ve ondan esinlenen yapay modelleri zorlamak için özenle tasarlanmış sentetik görüntüler kullanıyor.

Yeni bir görsel test düzeneği oluşturmak

Yazarlar, on binlerce fotoğraf izlenirken 7 Tesla MRI ile ultra yüksek çözünürlüklü beyin aktivitesini kayıt altına alan etkili Natural Scenes Dataset (NSD)’i genişletiyor. Bu orijinal veri kümesi, görsel korteksin görüntülere nasıl tepki verdiğini modellemede zaten en başarılı modellerin bazılarına güç sağladı. Ancak tüm bu görüntüler nispeten sıradan fotoğraflardan oluştuğu için, NSD üzerinde iyi performans gösteren bir modelin görmenin genel ilkelerini gerçekten yakalayıp yakalamadığı veya sadece o özel görüntü diyetine özelleştiğini bilmek zor. Bunu ele almak için ekip, aynı sekiz gönüllüyü yeniden taradı ve bu kez onlara alışılmış fotoğraf dünyasının dışına kasıtlı olarak çıkan 284 “sentetik” görüntü gösterdi.

Figure 1
Figure 1.

Tuhaf görüntüler, güvenilir beyin tepkileri

Sentetik görüntüler sekiz aileye yayılıyor: farklı tür görsel gürültüler, basit doğal sahneler ve ters çevrilmiş veya çizgisel çizim gibi değiştirilmiş versiyonları, kontrastı azaltılmış veya fazı karışmış sahneler, farklı konumlara yerleştirilmiş tek kelimeler, ince desenlere duyarlılığı ölçen spiral ızgaralar ve parlak renkli gürültü yamaları. Katılımcılar ya küçük titreyen bir noktaya odaklanırken ya da basit bir görüntü karşılaştırma görevi yaparken araştırmacılar beyin aktivitesini her 1,6 saniyede ölçtü. Bu tuhaf görünen uyaranların da güçlü, güvenilir sinyaller ürettiğini gösteriyorlar; özellikle kenarlar, kontrast ve renk gibi temel özelliklere yanıt veren erken görsel alanlarda. Korteks üzerindeki aktivite desenleri, ortada yer alan kelimelere en güçlü yanıt veren bir kelime-seçici alan ve çevre resimlerine en güçlü yanıt veren bir sahne-seçici alan gibi uzmanlaşmış bölgelerin iyi bilinen tercihleriyle örtüşüyor.

Verinin gerçekten “dağıtımdan sapma” olduğunu kanıtlamak

Bu yeni veri kümesinin modelleri zorlayabilmesi için, beyin tepkilerinin doğal fotoğraflardan kaynaklanan tepkilerden gerçekten farklı olması gerekiyor. Yazarlar, hem orijinal NSD’den hem de sentetik oturumdan elde edilen aktivite desenlerini, görüntüler arasındaki yanıt benzerliklerini yansıtan iki boyutlu bir haritaya sıkıştırıyor. Bu uzayda sentetik görüntülere verilen tepkiler, tarama oturumlarındaki farklar hesaba katılsa bile doğal fotoğraflara verilen tepkilerden ayrı kümeleniyor. Ayrıca sentetik görüntüler kendi görsel türlerine göre doğal olarak gruplanıyor—gürültü gürültüyle, ızgaralar ızgaralarla vb.—bu da beynin bu uyaranları yalnızca yüzey görünümüne göre değil, alttaki yapısal özelliklerine göre düzenlediğini gösteriyor.

Figure 2
Figure 2.

Beyin ve YZ modellerini daha zorlu bir teste sokmak

Bu yeni “dağıtımdan sapma” veri kümesiyle ekip standart kodlayıcı modelleri eğitiyor: derin sinir ağları tarafından çıkarılan görüntü özelliklerinden beyin tepkilerini tahmin eden matematiksel araçlar. Sadece doğal fotoğraflarla eğitilen modeller benzer fotoğraflarda iyi performans gösterirken, sentetik görüntülere ilişkin tepkileri tahmin ederken doğrulukları belirgin şekilde düşüyor. Bu düşüş gürültülü veriden kaynaklanmıyor—sentetik tepkiler aslında oldukça temiz—, gerçek model başarısızlıklarından kaynaklanıyor. Kritik olarak, bu daha sert koşullar altında farklı sinir ağı mimarilerini karşılaştırmak, dağıtımdaki testlerde neredeyse görünmeyen farkları ortaya çıkarıyor. Örneğin, modern bir görsel transformer ve kendinden denetimli bir ağ, sentetik görüntülerle karşılaştıklarında klasik konvolüsyonel ağlardan daha iyi performans gösteriyor; bu da bir modelin nasıl eğitildiğinin dayanıklılığını büyük ölçüde şekillendirdiğini düşündürüyor.

Modeller tanıdık görüntülerden ne kadar uzaklaşabilir?

Yazarlar bir adım daha ileri giderek eğitim verisinden "uzaklığı" evet-hayır etiketi yerine bir süreklilik olarak ele alıyor. Her görüntünün beyin yanıtının doğal sahnelere verilen yanıtların bulutundan ne kadar uzak olduğunu ölçüyorlar. Bu uzayda bir sentetik görüntü ne kadar uzaksa, modellerin performansı genellikle o kadar kötü oluyor ve yalnızca beyin aktivitesine dayanarak bir kişinin hangi görüntüyü gördüğünü tanımlama doğruluğu o kadar azalıyor. Ayrıca sıradan fotoğraflar dünyası içinde bile ustaca seçilmiş test setlerinin “hafifçe dağıtımdan sapma” gösterebileceğini gösteriyorlar: modeller, eğitim setleriyle aynı kümeden çekilen görüntülerde en iyi, uzak doğal sahnelerde daha az ve en kötü olarak sentetik uyaranlarda performans gösteriyor. Bu kademeli tablo, yeni veri kümesini mevcut modellerin kaçırdığı görsel yapı türlerini sorgulamak için bir araca dönüştürüyor.

Gelecek beyin ve YZ araştırmaları için anlamı

Konuyla ilgili olmayanlar için kilit mesaj şudur: tanıdık resimlerde güçlü performans göstermek, beyin kaynaklı bir YZ modelinin gerçekten nasıl gördüğümüzü yakaladığı anlamına gelmez. NSD‑synthetic’i orijinal NSD ile birlikte yayımlayarak yazarlar, görsel modeller için kamuya açık bir “çarpışma testi pisti” sunuyor: görüntüler daha soyut, daha renkli veya daha az doğal hale geldiğinde nerede bozulduklarını görmenin bir yolu. Veri kümesi açıkça erişilebilir ve mevcut, yaygın olarak kullanılan bir kaynakla sıkı entegrasyon içinde olduğundan, insan görüsüne ilişkin teorileri ve bunları taklit etmeyi amaçlayan yapay ağları test etmek ve geliştirmek için standart bir ölçüt haline gelmesi muhtemeldir.

Atıf: Gifford, A.T., Cichy, R.M., Naselaris, T. et al. A 7T fMRI dataset of synthetic images for out-of-distribution modeling of vision. Nat Commun 17, 1589 (2026). https://doi.org/10.1038/s41467-026-69345-9

Anahtar kelimeler: görsel korteks, fMRI veri kümesi, sentetik görüntüler, dağıtımdan sapma, derin sinir ağları