Clear Sky Science · sv

Fler-metrisk jämförande utvärdering av DeepSeek och ChatGPT i USMLE kontra CNMLE för medicinsk utbildning

· Tillbaka till index

Varför smartare provhjälpare spelar roll

Framtida läkare över hela världen måste klara krävande legitimationstprov innan de får behandla patienter. Samtidigt blir kraftfulla chattbotar baserade på stora språkmodeller vanliga studiekamrater. Den här artikeln granskar noggrant hur två sådana system, DeepSeek och ChatGPT, hanterar de medicinska legitimationstester som används i USA (USMLE) och Kina (CNMLE), och ställer en enkel fråga med stora följder: Kan dessa verktyg verkligen hjälpa till att utbilda säkra, väl förberedda läkare — och i så fall under vilka skyddsåtgärder?

Figure 1
Figure 1.

Två stora prov, två kraftfulla verktyg

Forskarna fokuserade på USMLE och CNMLE, nationella prov som testar ett brett spektrum av medicinsk kunskap, från grundvetenskap till kliniskt beslutsfattande. De samlade hundratals verkliga frågor: 243 från USMLE:s exempelprov och 300 från CNMLE:s frågebank, som täcker ämnen som internmedicin, kirurgi, pediatrik, psykiatri och mer. Frågor som krävde bedömning av medicinska bilder togs bort så att båda verktygen bara mötte textbaserade utmaningar. Teamet frågade sedan två versioner av varje system — GPT-4o-mini för ChatGPT och DeepSeek-R1 för DeepSeek — på både engelska och kinesiska, med enkla instruktioner som efterliknade hur en verklig student kunde be om hjälp under provförberedelser.

Vem svarade bättre, och hur konsekvent?

För att jämföra verktygen på ett rättvist sätt körde forskarna varje prov tre gånger med varje system och mätte sedan hur ofta svaren stämde överens med den officiella facit. På USMLE-frågorna svarade DeepSeek korrekt ungefär 93 % av gångerna, något före ChatGPT på cirka 90 %. DeepSeek hade en liknande fördel på CNMLE och nådde cirka 87 % jämfört med ChatGPT:s 79 %. DeepSeek presterade bättre än ChatGPT över alla tre USMLE-stegen, inklusive det mest komplexa avsnittet om kliniskt beslutsfattande, och över samtliga fyra enheter i CNMLE, särskilt inom områden med tung kineskspråkig grundvetenskap och klinisk kunskap. Teamet kontrollerade också hur stabila verktygen var över upprepade körningar och fann att båda visade hög konsekvens, med DeepSeek återigen något starkare.

Tänker högt, men ibland för långsamt

Moderna språkmodeller visar ofta sitt resonemang steg för steg, ungefär som en student som skriver ner sin logik. Forskarna räknade antalet tecken i dessa förklaringar som en grov måttstock på hur mycket "tänkande" varje system visade. På USMLE var de två verktygen likartade och gav resonemang av jämförbar längd. På CNMLE producerade däremot DeepSeek märkbart längre förklaringar, vilket tyder på djupare eller mer detaljerade tankegångar vid komplexa kinesiska medicinska frågor. Avvägningen var hastighet: DeepSeek tog längre tid att slutföra båda proven, särskilt CNMLE, medan ChatGPT svarade snabbare. Med andra ord tenderade DeepSeek att vara mer korrekt och mer ordkarg, medan ChatGPT prioriterade effektivitet.

Figure 2
Figure 2.

Löfte, fallgropar och ett nytt säkerhetsnät

Trots sina starka resultat — i genomsnitt högre än många mänskliga provtagare — gjorde båda systemen fortfarande viktiga misstag. I vissa fall valde de rimligt klingande men felaktiga behandlingar eller missförstod subtila begrepp, ett välkänt problem kallat "hallucination", där modellen självsäkert hittar på eller felanvänder fakta. Samtidigt visade de förvånande styrkor, som att upptäcka bristfälliga provfrågor som saknade något korrekt svar. Eftersom medicinsk utbildning är nära knuten till patientsäkerhet menar författarna att dessa verktyg måste behandlas som hjälpare, inte auktoriteter. För att stödja säkrare användning föreslår de en teknisk "faktagranskningsloop" som kopplar modellen till en noggrant uppbyggd medicinsk kunskapsgraf. När modellen svarar på en fråga skulle dess påståenden brytas ned, jämföras med betrodda källor som riktlinjer och läroböcker och tilldelas konfidensnivåer innan de visas för studerande.

Vad detta betyder för framtida medicinsk utbildning

För icke-experter är budskapet både uppmuntrande och försiktigt. DeepSeek och ChatGPT presterar redan på eller över nivån för många medicinstudenter på skriftliga prov, vilket tyder på att de kan ge meningsfullt stöd för studier, träningsfrågor och till och med omformning av undervisningen kring rikare, steg-för-steg-resonemang. Ändå innebär deras fel — och den otydlighet som omgärdar hur de når sina slutsatser — att de inte kan ersätta mänskliga lärare eller legitimerade kliniker. Författarna ser framför sig en framtid där sådana system fungerar som noggrant övervakade "assistentcoacher" för medicinstudenter, inbäddade i ett ramverk som kräver bevis, spårar tillförlitlighet och håller mänskligt omdöme fast i förarsätet. Om de byggs och styrs omsorgsfullt skulle dessa AI-hjälpare gradvis kunna flytta medicinsk utbildning från enkel inlärning till mer interaktivt, generativt lärande — utan att tappa målet ur sikte: säkrare vård för verkliga patienter.

Citering: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

Nyckelord: AI för medicinsk utbildning, stora språkmodeller, USMLE-prestation, Kinesiskt läkarlicensprov, verifieringsramverk