Clear Sky Science · tr
Servikal atipi sınıflandırmasında konformal tahminin doğrulanması
Serviks kanseri için daha akıllı taramanın önemi
Serviks kanseri hâlâ her yıl yüz binlerce kadının ölümüne yol açıyor, özellikle hekim ve laboratuvar uzmanlarının az olduğu ülkelerde. Servikal hücre örneklerini mikroskop altında inceleyen yapay zeka (YZ) sistemleri bu boşluğu doldurmaya yardımcı olabilir, ancak günümüzdeki sistemler genellikle aşırı güvenli konuşuyor. Görüntü gerçekten sınıflandırılması zor olsa bile genellikle tek bir “en iyi tahmin” etiketi verirler. Bu çalışma basit ama hayati bir soruyu gündeme getiriyor: bir YZ kendinden emin olmadığını söylediğinde, bu belirsizlik gerçekten insan uzmanların değerlendirmesiyle uyumlu mu?
Tek yanıt yerine olasılık kısa listeleri
Pap smear görüntüleri için geliştirilen çoğu tıbbi YZ aracı, standart laboratuvar raporlarının yazımını taklit eder: “normal”, “düşük dereceli değişiklik” veya “yüksek dereceli değişiklik” gibi bir kategori seçer ve bir olasılık iliştirir. Ancak bu olasılık skorları yanıltıcı biçimde keskin olabilir. Bu makalede incelenen yöntem, konformal tahmin, farklı bir yol izler. Tek bir nihai yanıt yerine, bir lamdan alınan her görüntü karosu için olası etiketlerden oluşan küçük bir küme üretir. Çok emin olunan bir durumda tek bir etiket verilirken, zor bir durumda birden fazla etiket verilebilir. İlkeye bakılırsa, bu yaklaşım klinisyenlere modelin neleri bilip neleri bilmediği konusunda daha dürüst bir görünüm sunmalıdır. 
Uzman uyumsuzluğunun zengin bir resmini oluşturmak
Bu fikrin gerçek dünyada ne kadar iyi çalıştığını test etmek için araştırmacılar Kenya’daki kırsal bir hastaneden toplanan 300’den fazla Pap smear lamından oluşan ayrıntılı bir veri seti derlediler. Mevcut bir YZ sistemi önce anormal hücre içermesi muhtemel bölgeleri vurguladı ve bu bölgeler küçük karolara kırpıldı. Altı deneyimli sitoloji uzmanı daha sonra binlerce karoyu özel bir web platformu üzerinden etiketledi. Bir çekirdek test seti için dört uzman aynı karoları bağımsız olarak etiketledi. Bu, her karo için tek bir “gerçek” etiketten öteye geçen; hangi görüntülerin açık seçik, hangilerinin doğal olarak belirsiz olduğunu yakalayan tam bir uzlaşma ve uyuşmazlık desenini oluşturdu.
Belirsizliği ifade etmenin farklı yollarını test etmek
Ekip, dört kategoriyi tanımak üzere üç popüler derin öğrenme modelini eğitti: normal, düşük dereceli değişiklikler, yüksek dereceli değişiklikler ve artefaktlar. Her modelin üzerine, etiket kümelerinin genişliğinde farklılık gösteren üç konformal tahmin çeşidi uygulandı. Performansı iki tamamlayıcı şekilde değerlendirdiler. Birincisi, tahmin edilen etiket kümesinin seçilen bir yüzde oranında en azından uzlaşma uzman etiketini içerip içermediğini basitçe sorgulayan standart kapsama (coverage) tarzı ölçümler kullanıldı. İkincisi ise, her tahmin kümesini o karoyu etiketleyen tüm uzmanların tam listelediği etiketlerle karşılaştıran ve YZ’nin kısa listesinin uzmanların kendi görüş aralığıyla örtüştüğü durumları ödüllendiren uyum (agreement) tarzı ölçümler getirildi.
Standart metrikler fazla iyimser bir tablo çizebilir
Geleneksel kapsama ölçülerine göre konformal yöntemler etkileyici görünüyordu: özellikle biraz daha büyük kümelere izin verildiğinde neredeyse her zaman uzlaşı uzman etiketini içeriyorlardı. Ancak daha sıkı uyum testleri farklı bir manzara sundu. YZ’nin etiket kümeleri ile uzmanların birleştirilmiş etiketleri arasındaki birebir eşleşmeler yöntemden bağımsız olarak vakaların yalnızca yaklaşık üçte biri kadardı. Bazı yaklaşımlar uzmanların makul saydığı etiketleri kaçıran küçük, kesin kümeleri tercih ederken; diğerleri doğru etiketi de içerecek şekilde aynı zamanda olasılığı düşük etiketleri de kapsayan daha geniş kümeler üretti. Yöntemler gömülü belirsizliği izleme konusunda iyi performans gösterdi: insan uzmanların daha fazla uyuşmazlık gösterdiği durumlarda konformal kümeler genellikle büyüdü. Ancak eğitim dağılımına gerçekten ait olmayan görüntüleri — yoğun gürültülü Pap smearler veya farklı doku tipinden örn. kemik iliği hücreleri gibi — işaretleme konusunda çok daha güvensiz davrandılar ve bu davranış büyük ölçüde hangi temel modelin kullanıldığına bağlıydı. 
Gerçek dünya kullanımı için ne anlama geliyor
YZ destekli araçları düşünen klinisyenler için temel çıkarım şudur: belirsizlik tahminleri matematiksel garantilerle sunuluyor diye otomatik olarak güvenilir olmaz. Konformal tahmin, doğru etiketin tahmin edilen kümenin bir yerinde çok sık bulunmasını sağlayabilir, fakat bu çalışmanın gösterdiği gibi, o kümedeki ek etiketler insan beklentileriyle örtüşmeyebilir ve en ilgili olasılıklardan dikkat dağıtıcı şekilde uzaklaşabilir. Yazarlar, kanser taraması gibi yüksek riskli alanlarda YZ çıktılarının yalnızca teknik olarak “doğru” olup olmadığına değil, aynı zamanda bilgiyi odaklı ve klinik açıdan anlamlı bir biçimde sunup sunmadığına göre değerlendirilmesi gerektiğini savunuyorlar. Gelecek çalışmaların hem modelleri hem de belirsizlik araçlarını rafine etmesi gerekecek, böylece tanı kısa listeleri uzmanlara hem mantıklı hem de matematiksel olarak tatmin edici gelecektir.
Atıf: Hagos, M.T., Suutala, A., Bychkov, D. et al. Validation of conformal prediction in cervical atypia classification. Sci Rep 16, 9649 (2026). https://doi.org/10.1038/s41598-026-44850-5
Anahtar kelimeler: serviks kanseri taraması, tıbbi yapay zeka belirsizliği, konformal tahmin, dijital sitoloji, dağılım dışı tespit