Clear Sky Science · fr

Performance de DeepSeek dans la génération de questions d’examen en cours de formation pour l’enseignement des internes en radiologie

2026-03-24 · Retour à l’index

Pourquoi des questions d’examen plus intelligentes comptent

Les médecins en formation en imagerie médicale passent des tests fréquents pour vérifier leurs connaissances et leur capacité à prendre en charge les patients. Rédiger ces questions demande beaucoup de temps d’expert, et les établissements se demandent si les outils d’intelligence artificielle peuvent aider. Cette étude a examiné si un grand modèle de langage appelé DeepSeek pouvait prendre en charge une partie de ce travail en rédigeant des questions à choix multiple pour les internes en radiologie, et où l’expertise humaine reste clairement nécessaire.

Figure 1. L’IA aide les enseignants en radiologie à créer des questions d’examen tandis que les médecins en formation les utilisent pour apprendre plus efficacement.

Ce que les chercheurs voulaient savoir

L’équipe en Chine s’est concentrée sur un volet clé de la formation en radiologie : les examens internes qui suivent la progression des résidents chaque année. Ils ont comparé deux jeux de questions appariés. Un jeu a été rédigé par des radiologues expérimentés suivant les standards nationaux de formation. L’autre jeu a été généré en chinois par le modèle DeepSeek à l’aide d’invites soigneusement conçues précisant le sujet, le niveau du stagiaire et le type de question. Toutes les questions devaient respecter les mêmes règles et ont été relues par un radiologue senior pour vérifier leur exactitude et leur équité avant utilisation.

Comment s’est déroulée l’expérience d’examen

À partir de ces banques de questions, les chercheurs ont choisi au hasard 14 questions de l’IA et 14 questions d’experts et les ont mélangées dans un test en ligne de 28 items. Quarante internes en radiologie de deuxième ou troisième année ont passé cet examen à livre fermé. Pour chaque question, ils ont choisi une réponse, deviné si la question venait de DeepSeek ou d’un expert humain, et l’ont évaluée en termes de difficulté, d’adéquation au programme, de qualité générale et de réalisme de l’histoire clinique. Ce protocole a permis à l’équipe de comparer non seulement les scores mais aussi la perception des questions par les apprenants.

Figure 2. Comparer des questions rédigées par l’IA et par des humains pour des faits simples versus des cas patients complexes afin de montrer où chaque approche est la plus efficace.

Où l’IA égale les rédacteurs humains

Sur l’ensemble de l’examen, les résidents ont obtenu à peu près la même proportion de bonnes réponses pour les items produits par DeepSeek et pour ceux rédigés par des experts, et ils ont eu du mal à distinguer la source de chaque question. Pour le type de question le plus simple, axé sur des faits de base et des règles claires, les items de DeepSeek ont donné des résultats très proches de ceux des auteurs humains. Des mesures objectives utilisées en évaluation, comme la capacité d’une question à distinguer les étudiants forts des plus faibles, ont aussi suggéré que ces items de connaissances de base générés par l’IA étaient généralement solides. Cela signifie que l’IA pourrait aider à constituer de larges banques de questions simples qui renforcent les concepts fondamentaux, en allégeant la charge de travail des enseignants.

Où le jugement humain reste déterminant

Le constat change quand les questions impliquent des récits patients plus riches et des décisions plus complexes. Pour les questions de complexité moyenne avec de courtes scènes cliniques, les résidents ont répondu correctement aux questions de l’IA et des experts à des taux similaires, mais ils ont jugé les versions expertes plus réalistes et un peu plus difficiles, en particulier parmi les résidents les plus anciens qui ont plus d’expérience clinique. Pour les questions les plus complexes, construites autour de séries de cas en plusieurs étapes et d’arbitrages, les résidents ont obtenu des scores nettement supérieurs sur les items rédigés par des experts que sur ceux de DeepSeek. Les apprenants, surtout en début de formation, semblaient plus susceptibles d’être induits en erreur ou confus par les situations cliniques plus superficielles et moins authentiques créées par l’IA.

Comment humains et IA peuvent collaborer

Les auteurs proposent une approche par paliers. DeepSeek et des outils similaires conviennent bien à la rédaction de grands nombres de questions basiques et bien structurées couvrant les faits et définitions standards. Les experts humains, eux, devraient rester responsables des questions qui évaluent la façon de penser face à l’incertitude, de peser les options et d’appliquer des valeurs en situation clinique réelle. L’IA peut aussi aider les relecteurs à repérer les questions faibles, tandis que les experts apportent la compréhension nuancée qui vient uniquement du soin aux patients. Avec des limites claires et une supervision attentive, combiner l’IA et le jugement d’expert pourrait rendre la construction des examens médicaux plus efficace tout en mesurant mieux ce qui compte vraiment.

Citation: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Mots-clés: enseignement en radiologie, questions d’examen, intelligence artificielle, grands modèles de langage, formation médicale