Clear Sky Science · tr
Büyük dil modellerini klinik tanılara dayandırmak
Doktorlar İçin Daha Akıllı Yardım
Doktora gittiğinizde doğru tanıya ulaşma yolu nadiren tek bir soru-cevap şeklindedir. Bu, doktorun hikâyenizi sorması, sizi muayene etmesi, testler istemesi ve ardından tüm ipuçlarını tartmasıyla gerçekleşen özenli bir karşılıklı süreçtir. Bu çalışma, günümüzün güçlü dil araçlarının sadece kısa sınav tarzı sorularla değil, bu tam yolculukta gerçekten yardımcı olup olamayacağını inceliyor. Araştırmacılar, doktorlar için gerçek bir klinik ortak gibi davranmayı amaçlayan özel bir sistem kurup test ediyor ve doktorlarla bu sistemin ekipleşmesinin hem doğruluk hem de hız açısından sorun tespitinde nasıl iyileşmeler sağlayabileceğini araştırıyor.

Kliniğe Gitmenin Makineler İçin Neden Zor Olduğu
Birçok haber, büyük dil modellerinin tıp sınavlarında veya kısa cevaplarda iyi performans gösterdiğini vurgular. Ancak gerçek klinik ziyaretleri daha karmaşıktır. Doktorlar genellikle yalnızca kısa bir şikâyetle başlar ve semptomların ne kadar sürdüğü, fizik muayene bulguları ve laboratuvar ya da görüntüleme sonuçları gibi detayları yavaş yavaş toplamak zorundadır. Her adımda fikirlerini değiştirir veya rafine ederler. Önceki çalışmalar çoğunlukla tüm bilgilerin zaten sunulduğu düzenli vakalarda AI'yi test etti. Yazarlar bunun, bir kilit sorunun veya testin eksik kalmasının yanlış tanıya yol açabileceği gerçek uygulamadan çok farklı olduğunu savunuyor.
Gerçek Vakalardan Bir Test Yatağı Oluşturmak
Yapay zekâyı daha gerçekçi bir şekilde değerlendirmek için ekip, bir “doktor” yapay zekâ ile yalnızca sorulduğunda hasta bilgilerini veren bir “sağlayıcı” arasında konuşma kuran ClinDiag-Framework'ü oluşturdu. Ayrıca zor vakalar, acil ziyaretler ve nadir hastalıkları içeren 32 uzmanlık alanından 4.421 gerçek klinik vakadan oluşan büyük bir koleksiyon olan ClinDiag-Benchmark'ı derlediler. Her vaka, ilk yakınma, öykü, fizik muayene, testler ve nihai tanı gibi klinik notları yansıtan aşamalara ayrıldı. Bu düzenek, araştırmacıların bir yapay zekânın sadece doğru cevabı verip vermediğini değil, aynı zamanda insan doktorların eğitiminde yer alan her adımı ne kadar iyi izlediğini de görmesini sağlıyor.
Bir Yapay Zekâyı Doktor Gibi Düşünmeye Eğitmek
Yazarlar daha sonra, doktor–hasta karşılaşmalarını taklit eden çok adımlı diyaloglar olarak yeniden yazılmış 7.616 gerçek vaka üzerinde ince ayar yapılan ClinDiag-GPT adlı özel bir dil modeli geliştirdiler. Bu eğitim hikâyelerinde yapay zekâ “doktor” odaklanmış sorular sormak, hangi muayenelerin yapılacağına karar vermek, doğrulayıcı testler istemek ve ancak ondan sonra tanıya varmak zorunda. Sistem, her zaman önceki hastalıkları ve aile öyküsünü sormak gibi yaygın klinik alışkanlıkları takip etmeyi ve belirsiz bir etiketle yetinmek yerine güçlü kanıt aramayı öğreniyor. Birkaç önde gelen genel amaçlı modele karşı test edildiğinde ClinDiag-GPT, tam tanısal prosedürlerde en iyi doğruluğa ulaştı ve her aşamada daha az hata yaptı; bunlar arasında favori bir tanıya atlama veya yeni çelişkili ipuçlarına rağmen erken bir varsayıma sıkı sıkıya bağlı kalma gibi zihinsel kestirmelerin daha az belirtisi de vardı.

Yapay Zekâ İnsan Doktorlarla Ne Kadar Uyumlu?
Bu eğitime rağmen tüm modeller, basit soru-cevap testlerine kıyasla gerçekçi adım adım tanıda belirgin şekilde daha kötü performans gösterdi; bu da gerçek klinik çalışmanın ne kadar talepkâr kaldığını vurguluyor. Yine de ClinDiag-GPT öne çıktı: daha eksiksiz bilgi topladı, daha net akıl yürüttü ve diğer yapay zekâ sistemlerine göre testleri daha az yanlış yorumladı. Araştırmacılar ayrıca birden çok yapay zekâ “doktor” ajanını birleştirmek veya bir yapay zekâ eleştirmeni eklemek gibi eklentileri de inceledi, ancak bunlar güvenilir şekilde performansı iyileştirmedi. Çok daha büyük kazançlar, gerçek tanısal iş akışları üzerinde hedefli ince ayardan geldi.
Doktorlar ve Yapay Zekâ Yan Yana Çalışıyor
Muhtemelen en pratik test üçlü bir karşılaştırmaydı: yalnız doktorlar, yalnız ClinDiag-GPT ve doktorlarla ClinDiag-GPT'nin birlikte çalışması. Karışık 60 vakanın örnekleminde ortak çalışma grubu en yüksek tanısal doğruluğa ulaştı ve vakaları tek başına çalışan doktorlara göre daha hızlı tamamladı. Kazanımlar, modelin geniş tıbbi hafızasının doktorun saha deneyimi ve muhakemesini destekleyebildiği nadir ve özellikle zorlu durumlarda en güçlüydü. Aynı zamanda, yapay zekâ hâlâ birçok vakayı kaçırdı veya kötü yönetti ve sonuçlarının haklı çıkarmadığı bir güvenle konuşma eğilimindeydi; bu da dikkatli insan denetiminin gerekliliğini vurguluyor.
Bu Hastalar İçin Ne Anlama Geliyor?
Çalışma, günümüzün önde gelen dil modellerinin gerçek kliniklerde doktorların yerini almanın çok uzağında olduğunu, ancak ClinDiag-GPT gibi amacı doğrultusunda geliştirilmiş bir sistemin şimdiden yardımcı bir asistan olarak hareket edebileceğini gösteriyor. Tanı sürecini daha titiz hale getirmeye yönlendirerek ve zor veya nadir vakalarda ek fikirler sunarak doktorların daha iyi ve daha hızlı kararlar almasını destekleyebilir. Hastalar için bu, doktorunuzun arka planda sessiz bir yapay zekâ ortağı ile birlikte çalıştığı; geniş tıbbi bilgisini kullanarak kaçırılan ipuçlarını azaltmaya ve karmaşık tanıların daha özenli şekilde konmasına yardımcı olmaya doğru bir geleceğe işaret ediyor.
Atıf: Chen, X., Zhou, H., Yi, H. et al. Grounding large language models in clinical diagnostics. Nat Commun 17, 4401 (2026). https://doi.org/10.1038/s41467-026-70274-w
Anahtar kelimeler: klinik tanı, tıbbi Yapay Zeka, büyük dil modelleri, doktor Yapay Zeka iş birliği, tanısal doğruluk