Clear Sky Science · tr
Multimodal büyük dil modelleri NEJM görüntü meydan okumasına karşı
Hastalar ve doktorlar için neden önemli
Doğru tanıyı doğru zamanda koymak, hızlı tedavi ile yıllarca süren sıkıntı arasındaki fark olabilir. Yine de doktorlar, yüksek eğitimli olanlar dahil, özellikle nadir veya sıra dışı hastalıklarda teşhisleri kaçırabiliyor veya geciktirebiliyor. Bu çalışma çarpıcı bir soruyu gündeme getiriyor: tıbbi görüntüler ve klinik ayrıntılar bugünün en gelişmiş yapay zeka sistemlerine verildiğinde, karmaşık vakaları gerçek doktorlardan daha iyi teşhis edebiliyorlar mı — eğer evet ise bu gelecekteki tıbbi bakım için ne anlama geliyor?

Gerçek dünya vakalarından oluşturulmuş dev bir bulmaca
Araştırmacılar, New England Journal of Medicine’in uzun süredir devam eden "Image Challenge" adlı özelliğine yöneldi. Her meydan okuma gerçek bir hastanın tıbbi görüntüsünü — bir deri fotoğrafı, röntgen, MR veya mikroskop lamı gibi — kısa bir klinik öykü ve beş olası tanı seçeneğiyle birlikte sunuyor. 2009’dan bu yana vaka başına 60.000’den fazla hekimden 16 milyondan fazla yanıt birikti ve doktorların aynı zor sorularda nasıl performans gösterdiğine dair benzersiz bir küresel kayıt oluşturdu. Bu arşivden ekip, tüm yaşları, her iki cinsiyeti ve enfeksiyonlar ve bağışıklık bozukluklarından kanserlere, genetik hastalıklara ve yaralanmalara uzanan geniş bir koşul yelpazesini kapsayan 272 vaka seçti.
Yapay zeka ve doktorları eşit koşullara koymak
Çalışma, görüntülere bakabilen ve metni birlikte okuyabilen üç önde gelen multimodal büyük dil modelini test etti: GPT‑4o, Claude 3.7 ve Doubao. Her vaka için modeller önce yalnızca görüntüyü gördü ve beş seçenekten birini açıklamayla birlikte seçmek zorundaydı. Ardından görüntü ve klinik tanımı birlikte gördüler ve tekrar yanıtladılar. Testin adil kalması için modeller standart ayarlarda kullanıldı, web araması ve ek muhakeme özellikleri kapalı tutuldu ve önceki yanıtlardan kaynaklanabilecek bulaşmayı önlemek için her vaka taze bir oturumda çalıştırıldı. İki hekim, yapay zekâ yanıtlarını resmi New England Journal çözümleriyle karşılaştırarak değerlendirdi; insan kıyaslamasında olduğu gibi odak nokta son seçimin gerçek tanıyla uyup uymadığıydı.
Hastalıklar ve görüntüler genelinde insanüstü performans
Hem görüntü hem metin verildiğinde üç yapay zekâ sistemi de açıkça doktorların küresel havuzunu geride bıraktı. Claude 3.7 ve GPT‑4o her biri yaklaşık %89–90 doğruluk seviyesine ulaşırken, insan yanıtlarının çoğunluk oyu %46,7’ydi — yüzde puanı bazında 40’tan fazla bir fark. Doktorların %40’ın altında doğru cevap verdiği en zor vakalarda bile Claude 3.7 tanıların %86,5’ini doğru buldu. Avantaj çoğu hastalık türü ve görüntü formatı boyunca sürdü: modeller özellikle ilaç kaynaklı ve genetik durumlarda güçlüydü ve sadece fotoğraflar ve röntgenler değil, endoskopik, patolojik ve karışık görüntü setleriyle de başa çıktılar. Performans hem erkekler hem kadınlar için eşit derecede yüksekti ve bir yaş altı bebekler gibi en savunmasız gruplardan bazılarında modeller doktorlardan dramatik biçimde daha doğruydular.

Farklı zihniyetler, sadece daha hızlı olanlar değil
Belki de en şaşırtıcı bulgu, doktorların başaramadığı durumlarda modellerin ne sıklıkla başarılı olduğu oldu. Vakaların neredeyse yarısında Claude 3.7 doğruyken doktorların çoğunluğu yanlıştı; tersine—doktorlar doğru, model yanlış—nadirdi. Genel olarak Claude 3.7 için her bir "hekim-avantajı" vakasına karşılık yaklaşık on beş "model-avantajı" vakası vardı. Yine de insanlarla yapay zekâ arasındaki hangi cevabı seçecekleri konusundaki uyum düşüktü; bu, sistemlerin yalnızca insan kalıplarını tekrar etmediğinin, doğru tanılara ulaşırken farklı yollar izlediğinin bir işareti. Klinik metnin eklenmesi genelde çok yardımcı oldu ve yalnızca görüntülere kıyasla yapay zekâ doğruluğunu %28–42 oranında artırdı. Yine de çok küçük bir vaka diliminde, ek ayrıntılar modelleri görüntüye dayalı doğru bir cevaptan yanlış bir cevaba iterek yeni tür önyargılara ve hataya açık durumlara işaret etti; bunlar dikkatli bir şekilde incelenmesi gereken konular.
Bu gelecekteki bakım için ne anlama gelebilir
Yazarlar, multimodal büyük dil modellerinin bu zorlayıcı tanı sınavında "insanüstü" bir seviyeye ulaştığı sonucuna varıyor: ortalama hekim kitlesinden daha doğrular ve vakalar çoğu doktoru yanıltırken bile üstünlüklerini koruyorlar. Aynı zamanda insan seçimleriyle düşük örtüşme göstermeleri, onların klinisyenlerin dijital kopyaları olmak yerine tamamlayıcı yollarla düşündüklerini öne sürüyor. Akıllıca kullanıldıklarında, bu sistemler zorlu veya nadir vakalarda bağımsız görüşler sunarak güçlü ikinci okuyucular olarak hizmet edebilir ve insan doktorların kaçırabileceği sorunları yakalamaya yardımcı olabilir. Klinik yargının yerini alacak kadar olgun değiller, ancak yakında hasta başında ve görüntü okuma odasında değerli ortaklar haline gelerek işimizi sessizce kontrol edip hastalar için güvenlik ağını genişletebilirler.
Atıf: Sheng, C., Shen, S., Wang, L. et al. Multimodal large language models challenge NEJM image challenge. Sci Rep 16, 8132 (2026). https://doi.org/10.1038/s41598-026-39201-3
Anahtar kelimeler: tıbbi tanı, yapay zeka, tıbbi görüntüleme, nadir hastalıklar, klinik karar desteği