Clear Sky Science · tr
Konformal tahmin ile SpineNet'te santral kanal stenozu tahmin belirsizliğinin nicelenmesi
Neden daha akıllı omurga taramaları önemli
Bel ağrısı her yıl milyonlarca insanı doktora götürür ve omurga manyetik rezonans görüntüleri (MRG), kimlerin ameliyata ihtiyaç duyduğunu ve kimlerin daha konservatif tedaviyle yönetilebileceğini belirlemede kilit bir araçtır. Artan biçimde, bilgisayarlar radyologlara omurga kanalının ne kadar daraldığını—santral kanal stenozu olarak adlandırılan durumu—otomatik olarak derecelendirerek yardımcı olur. Ancak doktorlar haklı olarak kritik bir soru sorar: bilgisayar cevabından ne kadar emin? Bu çalışma, SpineNet adlı karar kutusu bir omurga yapay zeka sistemini, yalnızca ne düşündüğünü söylemekle kalmayıp aynı zamanda ne kadar belirsizlik taşıdığını da ifade edebilen bir sisteme nasıl dönüştüreceğini gösteriyor—daha dürüst ve klinik olarak kullanışlı bir ikinci görüş sağlıyor.

Tek tahminlerden dürüst aralıklara
Tıpta kullanılan çoğu yapay zeka sistemi, emin olmasalar bile her zaman tek bir cevap veren çok kendinden emin öğrenciler gibi davranır. Örneğin SpineNet, lomber omurga MRG'lerini inceleyip her disk seviyesine normal, hafif, orta veya şiddetli olmak üzere dört dereceden birini atar. Söylemediği şey, birden fazla derecenin makul göründüğü durumların ne zaman ortaya çıktığıdır. Yazarlar, mevcut bir modelin etrafına sarılan ve ham güven skorlarını küçük olasılıklı cevap kümelerine dönüştüren konformal tahmin adı verilen istatistiksel bir çerçeve uyguluyor. Sistem "hafif" demek yerine "hafif veya orta" diyebilir ve klinisyenlerin ne kadar katı olmak istediğine bağlı olarak gerçek derecenin çok vakada bu kümenin içinde en az %85–%95 oranında bulunacağını garanti edebilir.
Gerçek hastalar üzerinde yaklaşımın test edilmesi
Ekip, İsviçre'deki bir hastanede MRG çekilmiş ve lomber spinal stenoz semptomları olan 340 yaşlı yetişkinten yola çıktı. SpineNet her kişide en fazla beş omur seviyesi için otomatik derecelendirme yaptı ve toplamda 1.689 disk seviyesi üretildi. Her seviye için araştırmacılar modelin dört stenoz derecesine ilişkin içsel olasılıklarını çıkardılar ve ardından dört farklı konformal tahmin çeşidini uyguladılar. Veriyi bin kez kalibrasyon ve test alt kümelerine ayırıp ne kadar hata tolere etmeye istekli olduklarını değiştirerek tekrar tekrar örneklediler. Bu yoğun yeniden örnekleme onlara yalnızca gerçek derecenin her tahmin kümesinin içinde ne sıklıkla yer aldığını değil, aynı zamanda bu kümelerin genelde ve her şiddet derecesi için ne kadar büyük olma eğiliminde olduğunu da gösterdi.
Güvenlik ile kullanılabilirlik arasında denge bulmak
Dört yöntemin tamamı genel başarı oranını istenen hedefe göre ayarlanabiliyordu, ancak bilgi vericilikleri açısından keskin farklılıklar gösterdiler. Basit bir "top-k" yöntemi katı ayarlarda neredeyse her zaman tüm dört dereceyi listeleyerek mükemmel kapsama sağladı; bu matematiksel olarak güvenli ama uygulamada neredeyse işe yaramaz bir yaklaşımdı. Tahmin kümesini uyarlanabilir şekilde büyütmeyi amaçlayan başka iki yöntem ise genellikle zor orta ve şiddetli vakalarla zorlandı ve büyük kümeler üretse bile hedef kapsama oranına ulaşmakta zorlandılar. Açık kazanan, her derece için ayrı bir belirsizlik eşiği öğrenen sınıf-koşullu yöntemdi. Bu yöntem istenen kapsama oranını güvenilir şekilde tuttururken tahmin kümelerini mümkün olduğunca küçük tuttu—sıradan normal ve hafif vakalar için genellikle yalnızca bir ya da iki derece, daha az yaygın olan orta ve şiddetli stenoz için ise yalnızca biraz daha büyük kümeler; ki insan uzmanların bile sıklıkla anlaşamadığı durumlar bunlar.
Modelin omurgada zorlandığı noktalar
Omur başına omur başına bakarak, yazarlar sistemin belirsizliğinin gerçek dünyadaki klinik zorluklarla örtüştüğünü gösterdiler. Üst lomber seviyelerde, vakaların çoğu normal veya hafif daralmış olduğunda, tahmin kümeleri küçük ve güvenilirdi. L3/L4 ve L4/L5 gibi seviyelerde, şiddetli daralma daha yaygın ama hâlâ görece nadir olduğunda belirsizlik arttı: şiddetli vakalar için tahmin kümeleri daha büyük ve kapsama daha değişkendi. Bu durum hem hastalığın düzensiz dağılımını hem de temel SpineNet modelinin açıkça normal veya açıkça şiddetli olanlara göre hafif ve orta derecelerde daha az doğru olmasını yansıtıyor. Önemli olarak, konformal katman bu zayıflığı gizlemek yerine açığa çıkarıyor ve radyologun özellikle dikkatli olması gereken vakaları işaretliyor.

Bu hastalar ve klinisyenler için ne anlama geliyor
Hastalar açısından, bu çalışma radyoloğu ikame etmez; otomatik araçları daha güvenilir kılar. Bir omurga yapay zekâsının hükmünü her şeyiyle kabul etmek yerine, klinisyenler artık algoritmanın sağlam zeminde olduğu zamanları ve komşu dereceler arasında kararsız kaldığı durumları görebilir. Bu şeffaflık, modele ne zaman güvenileceğine, ne zaman başka bir görüş aranacağına ve ameliyat tartışılırken görüntülemeyi semptomlarla nasıl tartacağımıza karar vermeyi kolaylaştırır. Konformal tahmin katmanı birçok mevcut sisteme yeniden eğitim gerektirmeden eklenebildiği için, bu yaklaşım yalnızca omurga MRG'lerini okuyan değil, aynı zamanda kendi sınırlarını bilen—ve açıkça ileten—yapay zekâya pratik bir yol sunar.
Atıf: Cina, A., Monzon, M., Galbusera, F. et al. Quantifying central canal stenosis prediction uncertainty in SpineNet with conformal prediction. Sci Rep 16, 4963 (2026). https://doi.org/10.1038/s41598-026-35343-6
Anahtar kelimeler: omurilik darlığı, tıbbi yapay zeka, MRI görüntüleme, belirsizlik tahmini, konformal tahmin