Clear Sky Science · tr

DeepSeek ve ChatGPT’nin Tıp Eğitimi için ABD USMLE ile Çin CNMLE Karşılaştırmalı Çok Ölçütlü Değerlendirmesi

· Dizine geri dön

Neden daha akıllı sınav yardımcıları önemli?

Dünyanın dört bir yanındaki gelecek doktorlar, hastaları tedavi edebilmeden önce zorlu lisans sınavlarını geçmek zorunda. Aynı zamanda, büyük dil modellerine dayanan güçlü sohbet botları yaygın çalışma ortakları haline geliyor. Bu makale, DeepSeek ve ChatGPT adlı iki sistemin ABD’de kullanılan tıp lisans sınavı (USMLE) ile Çin’deki muadilini (CNMLE) nasıl ele aldığını yakından inceliyor ve basit ama sonuçları büyük bir soruyu soruyor: Bu araçlar gerçekten güvenli, iyi hazırlanmış hekimler yetiştirmeye yardımcı olabilir mi—ve eğer evetse, hangi güvenlik önlemleriyle?

Figure 1
Figure 1.

İki büyük sınav, iki güçlü araç

Araştırmacılar, temel bilimlerden klinik karar vermeye kadar geniş bir tıp bilgisini ölçen ulusal sınavlar olan USMLE ve CNMLE’ye odaklandı. Gerçek sorulardan yüzlercesini topladılar: USMLE örnek sınavından 243 soru ve CNMLE soru bankasından 300 soru; iç hastalıkları, cerrahi, pediatri, psikiyatri ve daha fazlası gibi konuları kapsıyor. Her iki aracın da yalnızca metin tabanlı zorluklarla karşılaşması için tıbbi görüntü gerektiren sorular çıkarıldı. Ekip daha sonra her sistemin iki sürümünü—ChatGPT için GPT‑4o‑mini ve DeepSeek için DeepSeek‑R1—hem İngilizce hem Çince olarak, gerçek bir öğrencinin sınav hazırlığı sırasında nasıl yardım isteyebileceğini taklit eden basit talimatlarla sorguladı.

Kim daha iyi yanıtladı ve ne kadar tutarlıydı?

Araçları adil şekilde karşılaştırmak için araştırmacılar her sınavı her sistemle üç kez çalıştırdı ve ardından cevapların resmi anahtar ile ne sıklıkla örtüştüğünü ölçtü. USMLE sorularında DeepSeek yaklaşık %93 doğrulukla yanıtladı; ChatGPT ise yaklaşık %90 ile biraz geride kaldı. CNMLE’de de DeepSeek benzer bir üstünlük göstererek yaklaşık %87; ChatGPT ise %79 aldı. DeepSeek, en karmaşık klinik karar verme bölümünü de içeren tüm üç USMLE basamağında ve özellikle Çince dilinde temel bilim ve klinik bilgi ağırlıklı alanlarda tüm dört CNMLE biriminde ChatGPT’yi geride bıraktı. Ekip ayrıca araçların tekrarlı çalışmalardaki stabilitesini kontrol etti ve her ikisinin de yüksek tutarlılık gösterdiğini, DeepSeek’in yine hafifçe üstün olduğunu buldu.

Sesli düşünme ama bazen yavaş

Modern dil modelleri sıklıkla mantıklarını adım adım gösterir; tıpkı bir öğrencinin akıl yürütmesini yazması gibi. Araştırmacılar, bu açıklamalardaki karakter sayısını her sistemin ne kadar “düşünme” sergilediğine dair kaba bir ölçü olarak saydı. USMLE’de iki araç benzerdi ve karşılaştırılabilir uzunlukta gerekçeler sundu. Ancak CNMLE’de DeepSeek belirgin şekilde daha uzun açıklamalar üretti; bu, karmaşık Çince tıbbi sorularla uğraşırken daha derin veya daha ayrıntılı düşünce zincirleri olduğunu gösteriyor olabilir. Buna karşılık hız maliyeti vardı: DeepSeek her iki sınavı da tamamlamak için daha uzun zaman aldı, özellikle CNMLE’de; ChatGPT ise daha hızlı yanıt verdi. Başka bir deyişle, DeepSeek daha doğru ve daha ayrıntılı olma eğilimindeyken, ChatGPT verimliliği tercih etti.

Figure 2
Figure 2.

Umudun, risklerin ve yeni bir güvenlik ağının birleşimi

Güçlü puanlarına rağmen—ortalama olarak birçok insan katılımcıdan daha yüksek—her iki sistem de önemli hatalar yaptı. Bazı durumlarda makul sesli ama yanlış tedaviler seçtiler veya ince kavramları yanlış anladılar; modelin kendinden emin biçimde gerçekleri uydurduğu veya yanlış uyguladığı iyi bilinen bir sorun olan “halüsinasyon” bu bağlamda ortaya çıktı. Aynı zamanda, doğru cevabı olmayan kusurlu sınav sorularını tespit etmek gibi şaşırtıcı güçler de gösterdiler. Tıp eğitimi hasta güvenliğiyle yakından bağlı olduğundan, yazarlar bu araçlara otorite değil, yardımcı olarak yaklaşılması gerektiğini savunuyor. Daha güvenli kullanım için, modeli dikkatle oluşturulmuş bir tıbbi bilgi grafiğine bağlayan teknik bir “gerçeklik kontrol döngüsü” öneriyorlar. Model bir soruyu yanıtladığında, iddiaları parçalara ayrılacak, rehberler ve ders kitapları gibi güvenilir kaynaklara karşı kontrol edilecek ve öğrencilere gösterilmeden önce güven düzeyleri atanacak.

Geleceğin tıp eğitimi için ne anlama geliyor?

Uzman olmayanlar için mesaj hem cesaret verici hem temkinli. DeepSeek ve ChatGPT yazılı sınavlarda birçok tıp öğrencisinin düzeyinde veya üzerinde performans gösteriyor; bu, çalışma, pratik sorular ve daha zengin adım adım akıl yürütmeye dayalı öğretim tasarımını anlamlı biçimde destekleyebileceklerini gösteriyor. Yine de hataları—ve sonuçlara nasıl vardıklarının şeffaf olmayışı—insan öğretmenlerin veya lisanslı klinisyenlerin yerini alamayacakları anlamına geliyor. Yazarlar, bu tür sistemlerin kanıt talep eden, güvenilirliği izleyen ve insan yargısını kesinlikle yetkili tutan bir çerçeve içinde sıkı denetime tabi “yardımcı koçlar” olarak görev yapacağı bir gelecek öngörüyor. Dikkatle inşa edilip yönetildiğinde, bu yapay zeka yardımcıları tıp eğitimini basit ezberlemeden daha etkileşimli, üretken öğrenmeye kademeli olarak kaydırabilir—gerçek hastalar için daha güvenli bakımı nihai hedef olarak kaybetmeden.

Atıf: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

Anahtar kelimeler: tıp eğitimi yapay zeka, büyük dil modelleri, USMLE performansı, Çin tıp lisans sınavı, gerçeklik kontrol çerçevesi