Clear Sky Science · tr

Görsel olmayan tıbbi tablolar üzerinde evrişimli sinir ağlarının kararsızlığı ve performans sınırları: ampirik bir inceleme

· Dizine geri dön

Günlük tıp için bunun önemi

Hastaneler, görüntüler yerine tablo benzeri tıbbi kayıtları kullanarak kimde kanser, kalp hastalığı veya ciddi enfeksiyon olduğunu tahmin etmekte giderek yapay zekâya güveniyor. Bu çalışma, pratik sonuçları büyük olan aldatıcı derecede basit bir soruyu soruyor: bugün popüler olan görsel odaklı sinir ağları, böyle görüntü dışı, sütun tabanlı tıbbi verilerle beslendiğinde gerçekten güvenilir mi, yoksa doktorları ve hastaları yanıltabilecek öngörülemez davranışlar mı sergiliyor?

Figure 1
Figure 1.

Beyne ilham veren iki hesaplayıcı türü

Araştırmacılar, kabaca beynin bilgi işleyişini taklit eden iki sinir ağı ailesini karşılaştırdı. Evrişimli sinir ağları (CNN’ler) modern görüntü tanımanın iş atlarıdır. Görselleri küçük yamalar halinde tarayıp kenarlar veya dokular gibi yerel desenleri arar, sonra daha karmaşık şekillere doğru inşa ederler. Çok katmanlı algılayıcılar (MLP’ler) ise daha basit bir yaklaşım benimser: yaş, tansiyon veya bir laboratuvar değeri gibi her giriş özelliğini bağımsız bir sayı olarak ele alır ve belirli bir sıra veya komşuluk varsaymadan hepsinin ağırlıklı birleşimlerini öğrenir.

Tıbbi tabloları teste koymak

Bu modellerin gerçek dünya sağlık verilerinde nasıl davrandığını görmek için ekip, görüntülerden çok elektronik tabloya benzeyen üç iyi bilinen tıbbi veri seti kullandı. Birinde COVID‑19 hastalarından alınan laboratuvar ve klinik özellikler vardı; amaç hayatta kalmayı tahmin etmekti. Diğeri, mikroskop tabanlı meme tümörü ölçümlerini içeriyor ve kötü huylu ile iyi huyluyu ayırt etmeye çalışıyordu. Üçüncüsü ise kardiyoloji veri tabanından klasik kalp hastalığı risk faktörlerini kapsıyordu. Önemli olarak, bu veri setlerinde değişkenler yan yana listelenir, fakat piksellerde olduğu gibi anlam taşıyan doğal bir «soldan‑sağa» sıra yoktur.

Sütunları karıştırmak ve modelleri sarsmak

Çalışmanın özü devasa bir stres testiydi. Yazarlar giriş sütunlarının sırasını tekrar tekrar karıştırdı ve aynı zamanda CNN tasarımının önemli parçalarını rastgele değiştirdi; örneğin kaç küçük «yama okuyucu» (kernel) kullanıldığı, bu yamaların genişliği ve son karar katmanındaki nöron sayısı gibi. Her bir karıştırma‑ve‑mimari kombinasyon için —toplam 1.000 permütasyon— CNN’i ve eş zamanlı olarak karşılaştırılabilir bir MLP’yi eğittiler. Tek bir “en iyi” doğruluğa odaklanmak yerine, performans puanlarının tüm bu çalışmalarda nasıl yayıldığına baktılar ve her modelin hasta ile sağlıklı ayrımındaki başarısını özetlemek için ROC eğrisi altındaki alanı (AUROC) kullandılar.

Figure 2
Figure 2.

Siyah kutunun içinden çıkanlar

Sonuçlar, görsel olmayan tıbbi tablolarda CNN’ler için ürkütücü bir tablo çizdi. Özenle seçilmiş bazı ayarlarda CNN’ler en yüksek performansta MLP’leri yakalayabiliyor veya hafifçe geçebiliyordu—özellikle güçlü, net ayrım sağlayan birçok özelliğe sahip meme kanseri verisinde. Ancak tüm karıştırmalar ve mimariler boyunca CNN’ler çok daha geniş performans dalgalanmaları gösterdi ve ara sıra çok kötü sonuçlara yatkınlık sergiledi. Başarıları ya da başarısızlıkları keyfi tercihlere güçlü şekilde bağlıydı: sütunların sıralanışı, her tarama penceresinin büyüklüğü ve ağın kaç filtre ile son katman düğümüne sahip olduğu gibi. Birbirine yakın birçok özelliği karıştıran daha büyük tarama pencereleri, bu sırasız girdilerde hem ortalama performansı hem de kararlılığı tutarlı şekilde olumsuz etkiledi.

Neden daha basit modeller genellikle daha iyi davrandı

Buna karşılık MLP’ler sütun sırasına çok daha az duyarlıydı. Yerel komşuluklara dayanmadıkları için özellikleri karıştırmak, modelin ilke olarak öğrenebileceğini değiştirmiyordu. Araştırmacılar MLP’nin gizli katmanındaki nöron sayısını artırdıkça, performansı istikrarlı biçimde iyileşti ve genellikle daha az toplam parametreye rağmen CNN’leri geçti. Açıkça bilgilendirici özelliklere sahip veri setleri her iki model için de yüksek ve kararlı skorlar verdi, ancak CNN’ler hâlâ ara sıra çökme riskini taşıyordu. Zayıf sinyallerin baskın olduğu daha zor veri setlerinde CNN performansı mimari seçimlerle vahşice değişirken, MLP’ler göreli olarak sabit kaldı.

Klinik yapay zekâ için çıkarım

Görüntüler yerine tablo benzeri kayıtlara dayanan tıbbi uygulamalar için bu çalışma CNN’lerin kırılgan araçlar olabileceği sonucuna varıyor. Bazı benchmark’larda görünen güçleri, sütunların şans eseri belirli bir sırada olmasına ve belirli tasarım kararlarına dayanıyor olabilir; bu, tıbbi desenlerin gerçekten sağlam bir şekilde öğrenildiğini göstermeyebilir. Anlamlı bir mekânsal düzen varsayan yöntemler yerine, MLP’ler ve benzeri yaklaşımlar binlerce deneme boyunca genel olarak daha güvenilir davranış sundu. Doktorlar, hastane veri bilimcileri ve düzenleyiciler için ders açık: tablo biçimli sağlık verileri üzerine yapay zekâ sistemleri kurarken, bu veriler için tasarlanmamış görüntü‑stili ağlardan elde edilecek tekil yüksek performans sayılarını kovalamaktansa kararlılığı ve şeffaflığı önceliklendirmek daha güvenlidir.

Atıf: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

Anahtar kelimeler: tıbbi tablo verileri, evrişimli sinir ağları, çok katmanlı algılayıcı, klinik tahmin modelleri, model kararlılığı