Clear Sky Science · nl
Multimetrische vergelijkende evaluatie van DeepSeek en ChatGPT in USMLE versus CNMLE voor medische opleiding
Waarom slimere examenhulpjes ertoe doen
Toekomstige artsen wereldwijd moeten zware vergunningsexamens halen voordat ze patiënten mogen behandelen. Tegelijkertijd worden krachtige chatbots op basis van grote taalmodellen steeds vaker gebruikte studiepartners. Dit artikel onderzoekt nauwkeurig hoe twee van zulke systemen, DeepSeek en ChatGPT, omgaan met de medische vergunningsexamens in de Verenigde Staten (USMLE) en China (CNMLE), en stelt een eenvoudige maar verregaande vraag: kunnen deze hulpmiddelen echt bijdragen aan de opleiding van veilige, goed voorbereide artsen — en zo ja, onder welke waarborgen?

Twee grote examens, twee krachtige tools
De onderzoekers concentreerden zich op de USMLE en CNMLE, nationale examens die een breed scala aan medische kennis toetsen, van basale wetenschap tot klinische besluitvorming. Ze verzamelden honderden echte vragen: 243 uit het USMLE-voorbeeldexamen en 300 uit de CNMLE-vragenbank, met onderwerpen zoals interne geneeskunde, chirurgie, kindergeneeskunde, psychiatrie en meer. Vragen die het bekijken van medische beelden vereisten werden verwijderd zodat beide systemen alleen tekstgebaseerde uitdagingen kregen. Het team bevroeg vervolgens twee versies van elk systeem — GPT‑4o‑mini voor ChatGPT en DeepSeek‑R1 voor DeepSeek — in zowel Engels als Chinees, met eenvoudige instructies die nabootsten hoe een echte student om hulp zou vragen tijdens examenvoorbereiding.
Wie beantwoordde beter, en hoe consistent?
Om de tools eerlijk te vergelijken, voerden de onderzoekers elk examen drie keer uit met elk systeem en maten daarna hoe vaak de antwoorden overeenkwamen met het officiële antwoordmodel. Bij de USMLE-vragen beantwoordde DeepSeek ongeveer 93% correct, iets voor op ChatGPT met ongeveer 90%. DeepSeek hield een vergelijkbaar voordeel op de CNMLE, met ongeveer 87% versus 79% voor ChatGPT. DeepSeek presteerde beter dan ChatGPT over alle drie USMLE-stappen, inclusief het meest complexe onderdeel voor klinische besluitvorming, en over alle vier CNMLE-eenheden, vooral in gebieden die veel Chinese basiswetenschap en klinische kennis bevatten. Het team controleerde ook hoe stabiel de tools waren over herhaalde runs en vond dat beide hoge consistentie toonden, waarbij DeepSeek opnieuw iets sterker was.
Denkend hardop, maar soms te langzaam
Moderne taalmodellen tonen vaak hun redenering stap voor stap, vergelijkbaar met een student die zijn logica uitschrijft. De onderzoekers telden het aantal tekens in deze verklaringen als een ruwe maat voor hoeveel "denken" elk systeem toonde. Bij de USMLE waren de twee tools vergelijkbaar en gaven ze redeneringen van vergelijkbare lengte. Bij de CNMLE produceerde DeepSeek echter opvallend langere verklaringen, wat duidt op diepere of meer gedetailleerde gedachtegangen bij complexe Chinese medische vragen. De afweging was snelheid: DeepSeek deed er langer over om beide examens te voltooien, vooral de CNMLE, terwijl ChatGPT sneller antwoordde. Met andere woorden: DeepSeek neigde naar hogere nauwkeurigheid en meer uitvoer, terwijl ChatGPT efficiëntie prefereerde.

Belofte, valkuilen en een nieuw veiligheidsnet
Ondanks hun hoge scores — gemiddeld hoger dan veel menselijke toetsafleggers — maakten beide systemen nog steeds belangrijke fouten. In sommige gevallen kozen ze plausibel klinkende maar verkeerde behandelingen of begrepen ze subtiele concepten verkeerd, een bekend probleem dat "hallucinatie" wordt genoemd, waarbij het model feiten vol vertrouwen verzint of verkeerd toepast. Tegelijkertijd lieten ze verrassende sterke punten zien, zoals het opsporen van gebrekkige examenvragen die helemaal geen correct antwoord hadden. Omdat medische opleiding nauw verbonden is met patiëntveiligheid, stellen de auteurs dat deze hulpmiddelen als assistenten en niet als autoriteiten moeten worden behandeld. Ter ondersteuning van veiliger gebruik stellen ze een technisch "fact-checking loop" voor die het model koppelt aan een zorgvuldig opgebouwd medisch kennisgrafiek. Wanneer het model een vraag beantwoordt, zouden de beweringen worden opgeknipt, gecontroleerd aan de hand van vertrouwde bronnen zoals richtlijnen en leerboeken, en voorzien van betrouwbaarheidsniveaus voordat ze aan leerlingen worden getoond.
Wat dit betekent voor toekomstige medische opleiding
Voor niet‑experts is de boodschap zowel bemoedigend als voorzichtig. DeepSeek en ChatGPT presteren al op of boven het niveau van veel geneeskundestudenten bij schriftelijke examens, wat suggereert dat ze studie, oefenvragen en zelfs het herontwerpen van onderwijs rond rijkere, stap‑voor‑stap redenering zinvol kunnen ondersteunen. Toch betekenen hun fouten — en de ondoorzichtigheid van hoe ze tot conclusies komen — dat ze menselijke docenten of bevoegde clinici niet kunnen vervangen. De auteurs voorzien een toekomst waarin zulke systemen fungeren als nauw gecontroleerde "assistent-coaches" voor medische leerlingen, ingebed in een kader dat bewijs eist, betrouwbaarheid volgt en menselijk oordeel stevig aan de leiding houdt. Als ze zorgvuldig worden gebouwd en gereguleerd, kunnen deze AI-hulpen de medische opleiding geleidelijk verschuiven van eenvoudige memorisatie naar meer interactieve, generatieve leerervaringen — zonder het uiteindelijke doel uit het oog te verliezen: veiligere zorg voor echte patiënten.
Bronvermelding: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2
Trefwoorden: AI voor medische opleiding, grote taalmodellen, USMLE-prestaties, Chinees medisch examen, fact-checking kader