Clear Sky Science · fr

Évaluation comparative multi‑critères de DeepSeek et ChatGPT au USMLE et au CNMLE pour l’enseignement médical

· Retour à l’index

Pourquoi des assistants d’examen plus intelligents comptent

Les futurs médecins du monde entier doivent réussir des examens de qualification exigeants avant de pouvoir soigner des patients. Dans le même temps, des chatbots puissants fondés sur de grands modèles de langage deviennent des partenaires d’étude courants. Cet article examine de près la manière dont deux de ces systèmes, DeepSeek et ChatGPT, traitent les examens de qualification médicale utilisés aux États‑Unis (USMLE) et en Chine (CNMLE), et pose une question simple aux conséquences importantes : ces outils peuvent‑ils réellement contribuer à former des médecins sûrs et bien préparés — et si oui, sous quelles garanties ?

Figure 1
Figure 1.

Deux grands examens, deux outils puissants

Les chercheurs se sont concentrés sur le USMLE et le CNMLE, des examens nationaux qui évaluent un large éventail de connaissances médicales, des sciences fondamentales à la prise de décision clinique. Ils ont rassemblé des centaines de questions réelles : 243 issues de l’examen type du USMLE et 300 extraites de la banque de questions du CNMLE, couvrant des thèmes comme la médecine interne, la chirurgie, la pédiatrie, la psychiatrie, et plus encore. Les questions nécessitant l’examen d’images médicales ont été supprimées afin que les deux outils ne soient confrontés qu’à des énoncés textuels. L’équipe a ensuite interrogé deux versions de chaque système — GPT‑4o‑mini pour ChatGPT et DeepSeek‑R1 pour DeepSeek — en anglais et en chinois, en utilisant des consignes simples imitant la manière dont un étudiant réel pourrait demander de l’aide lors de sa préparation.

Qui a mieux répondu, et avec quelle constance ?

Pour comparer équitablement les outils, les chercheurs ont fait passer chaque examen trois fois à chaque système, puis ont mesuré la fréquence à laquelle les réponses concordaient avec la clé officielle. Sur les questions du USMLE, DeepSeek a répondu correctement environ 93 % du temps, légèrement devant ChatGPT à environ 90 %. DeepSeek a conservé un avantage similaire au CNMLE, obtenant environ 87 % contre 79 % pour ChatGPT. DeepSeek a surperformé ChatGPT sur les trois étapes du USMLE, y compris la section la plus complexe de prise de décision clinique, et sur les quatre unités du CNMLE, en particulier dans les domaines riches en connaissances fondamentales et cliniques en chinois. L’équipe a également vérifié la stabilité des outils sur des exécutions répétées, constatant que les deux présentaient une forte constance, DeepSeek étant encore légèrement supérieur.

Penser à voix haute, mais parfois trop lentement

Les modèles de langage modernes exposent souvent leur raisonnement étape par étape, un peu comme un étudiant qui rédige sa logique. Les chercheurs ont compté le nombre de caractères dans ces explications comme mesure approximative de la quantité de « pensée » que chaque système montrait. Au USMLE, les deux outils étaient similaires, produisant des raisonnements de longueur comparable. En revanche, au CNMLE, DeepSeek a fourni des explications notablement plus longues, suggérant des chaînes de pensée plus profondes ou plus détaillées lorsqu’il traitait des questions médicales complexes en chinois. Le compromis a été la vitesse : DeepSeek a mis plus de temps pour compléter les deux examens, surtout le CNMLE, tandis que ChatGPT a répondu plus rapidement. Autrement dit, DeepSeek avait tendance à être plus précis et plus verbeux, alors que ChatGPT privilégiait l’efficacité.

Figure 2
Figure 2.

Promesses, pièges et un nouveau filet de sécurité

Malgré leurs bons scores — supérieurs, en moyenne, à ceux de nombreux candidats humains — les deux systèmes ont quand même commis des erreurs importantes. Dans certains cas, ils ont proposé des traitements plausibles mais incorrects ou mal interprété des concepts subtils, un problème bien connu appelé « hallucination », où le modèle invente ou applique de manière erronée des faits avec assurance. En même temps, ils ont montré des forces surprenantes, comme la détection de questions d’examen défectueuses n’ayant aucune bonne réponse. Parce que l’enseignement médical est étroitement lié à la sécurité des patients, les auteurs soutiennent que ces outils doivent être considérés comme des aides et non comme des autorités. Pour soutenir une utilisation plus sûre, ils proposent une « boucle de vérification des faits » technique qui relierait le modèle à un graphe de connaissances médicales soigneusement construit. Lorsqu’un modèle répondrait à une question, ses affirmations seraient décomposées, vérifiées par rapport à des sources de confiance telles que des lignes directrices et des manuels, puis assorties de niveaux de confiance avant d’être présentées aux apprenants.

Ce que cela implique pour la formation médicale future

Pour les non‑experts, le message est à la fois encourageant et prudent. DeepSeek et ChatGPT obtiennent déjà des résultats au niveau — ou au‑dessus — de nombreux étudiants en médecine aux examens écrits, ce qui suggère qu’ils peuvent soutenir utilement l’étude, la pratique des questions et même la refonte de l’enseignement autour d’un raisonnement plus riche, étape par étape. Pourtant, leurs erreurs — et l’opacité de leur manière d’aboutir à des conclusions — signifient qu’ils ne peuvent pas remplacer les enseignants humains ou les cliniciens agréés. Les auteurs envisagent un avenir où ces systèmes agiraient comme des « coachs assistants » étroitement supervisés pour les apprenants en médecine, intégrés dans un cadre exigeant des preuves, suivant la fiabilité et maintenant la primauté du jugement humain. S’ils sont conçus et gouvernés avec soin, ces assistants IA pourraient progressivement faire évoluer l’enseignement médical d’une simple mémorisation vers un apprentissage plus interactif et génératif — sans perdre de vue l’objectif ultime : des soins plus sûrs pour de vrais patients.

Citation: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2

Mots-clés: IA pour l’éducation médicale, grands modèles de langage, performance au USMLE, examen national chinois de médecine, cadre de vérification des faits