Clear Sky Science · tr

Glokomu taramasında yorumlanabilirliği artırmak için süperpiksel tabanlı yeni bir Vision Transformer

· Dizine geri dön

Neden göz taramaları ve akıllı makineler önemli

Glokom, kişiler herhangi bir belirti fark etmeden görmeyi çalabilen sessiz bir göz hastalığıdır. Doktorlar, gözün arkasının renkli fotoğraflarında erken uyarı işaretlerini tespit edebilir, ancak her görüntüyü dikkatle incelemek zaman alıcıdır ve uzmanlık gerektirir. Yapay zeka (YZ) yardımcı olabilir, ancak birçok güçlü sistem nasıl sonuca ulaştıkları konusunda çok az bilgi veren “kara kutu” gibi davranır. Bu çalışma, yüksek doğruluğu korurken uzmanların mantığı daha kolay görüp güvenebilmesini sağlamayı amaçlayan yeni bir YZ yaklaşımı tanıtıyor.

Figure 1
Figure 1.

Kare fayanslardan daha doğal bölgelere

Vision transformer tabanlı çoğu modern görüntü analiz sistemi, bir resmi işlemeye başlamadan önce aynı boyuttaki kare fayanslara böler. Bu günlük fotoğraflar için iyi çalışabilir, ancak gözdaki gerçek yapılar nasıl şekillendiğini göz ardı eder. Optik diskin ve içteki çukur olarak adlandırılan cup’un eğrisel, düzensiz sınırları vardır ve bunları katı karelere zorlamak önemli ve önemsiz ayrıntıları karıştırır. Araştırmacılar bunun yerine “süperpikseller” kullanır — benzer renk veya dokuya sahip bitişik piksellerin grupları — retinanın görüntüsünü gerçek anatomik sınırları takip eden parçalara ayırmak için. Bu süperpikseller daha sonra transformer’ın analiz ettiği temel birimler veya “token”ler haline gelir.

Transformer’lara görüntü beslemenin yeni bir yolu

Önerilen model, Süperpiksel Tabanlı Vision Transformer (SpxViT) adını taşır; standart bir vision transformer’ın iç mekanizmasını neredeyse değiştirmeden ön ucu yeniden tasarlamaya odaklanır. Görüntü transformere ulaşmadan önce mevcut bir algoritma (SLIC) onu yaklaşık olarak ortak bir temel model olan ViT‑B/16’da kullanılan fayans sayısına benzer şekilde 196 süperpiksele böler. Her düzensiz bölge, normal bir fayans gibi işlenebilmesi için sabit uzunlukta sayısal bir tanıma dönüştürülür. İki varyant test edilir: daha doğal şekillere öncelik veren sabit ayarlı bir versiyon (SpxViT_fix) ve her görüntü için bu ayarı ayarlayarak her zaman tam olarak 196 bölge üreten başka bir versiyon (SpxViT_var). Bu tokenlaştırma adımı dışında transformer katmanları ve eğitim prosedürü klasik model ile aynıdır, bu da adil bir karşılaştırma sağlar.

Gerçek göz görüntüleri üzerinde test

Ekip, yöntemlerini halka açık bir veritabanı ve bir hastane koleksiyonundan gelen 739 retina fotoğrafı üzerinde değerlendirdi; her görüntü glokom uzmanları tarafından etiketlenmişti. Uzmanlar ayrıca optik disk ve cup sınırlarını izleyerek en klinik olarak önemli yapıların ayrıntılı haritalarını oluşturdular. Birkaç transformer tabanlı sistem sıfırdan eğitildi ve karşılaştırıldı: kare fayanslı standart ViT‑B/16, önceki çalışmadan başka bir süperpiksel tabanlı tasarım ve iki SpxViT versiyonu. Performans, hastalıklı gözleri tespit etme ve sağlıklı olanları doğru şekilde reddetme arasındaki dengeyi ölçen yaygın tanısal skorlarla değerlendirildi. Klasik ViT‑B/16 en yüksek genel doğruluğu elde etti, ancak SpxViT_var ona çok yakındı ve fark bir yüzde puandan az kaldı.

Figure 2
Figure 2.

Makine dikkatinin doktorun gözüyle örtüşmesini sağlamak

Sadece doğruluk klinik kullanım için yeterli değildir; doktorların ayrıca bir modelin kararını hangi görüntü parçalarının etkilediğini bilmeleri gerekir. Araştırmacılar, her token’in nihai tahmine ne kadar katkıda bulunduğunu izleyen ve bunu orijinal görüntü üzerinde ısı haritasına dönüştüren attention rollout adı verilen bir analiz tekniği kullandılar. SpxViT token’leri disk ve cup sınırlarını takip ettiğinden, dikkat haritaları doğal olarak bu bölgelerle hizalanır ve standart transformer’larda görülen bloklu ızgara deseninden kaçınır. Isı haritalarını uzman segmentasyonlarıyla üst üste koyarak ekibin cup’a, diske veya arka plana ne kadar dikkat düştüğünü hesaplaması mümkün oldu. Süperpiksel modelleri, özellikle SpxViT_var, dikkatlerinin çoğunu disk ve cup üzerinde yoğunlaştırırken retina geri kalanını büyük ölçüde görmezden geldi. Bir glokom uzmanı ayrıca örnek haritaları gözle değerlendirip SpxViT_fix’ten elde edilenlerin gerçek tanıda kullanılan yapıların net vurgulanmasıyla en kolay yorumlanabilir olduğunu buldu.

Göz bakımı YZ’sinde güven ve performans arasında denge kurmak

Çalışma, görüntülerin nasıl parçalara ayrıldığını yeniden şekillendirmenin glokom taraması için YZ sistemlerini önemli ölçüde şeffaflaştırabileceğini ve doğruluktan ciddi şekilde ödün vermeden bunu yapabileceğini gösteriyor. Klasik transformer sayısal olarak yeni yöntemin önüne geçse de, SpxViT açıklamaları klinik akıl yürütmeyle daha iyi eşleştiriyor; saçaklı veya ızgara şeklindeki desenler yerine optik disk ve cup’a odaklanıyor. Günlük uygulama için bu ödün verilebilir olabilir: doktorların anlayıp sorgulayabileceği bir modelin benimsenmesi ve tarama programlarına güvenli entegrasyonu daha olasıdır. Yazarlar, benzer süperpiksel tabanlı tasarımların, modelin nereye baktığını bilmenin doğru olup olmadığı kadar önemli olduğu diğer tıbbi görüntüleme görevlerinde de yorumlanabilir YZ getirmeye yardımcı olabileceğini savunuyorlar.

Atıf: Hernández, J., Alayón, S., Sigut, J.F. et al. A novel superpixel based Vision Transformer for improving interpretability in glaucoma screening. Sci Rep 16, 10879 (2026). https://doi.org/10.1038/s41598-026-39730-x

Anahtar kelimeler: glokom taraması, retina görüntüleme, vision transformer'lar, açıklanabilir yapay zeka, süperpikseller