Clear Sky Science · fr

Évaluation de trois chatbots d’intelligence artificielle pour la génération de questions à choix multiple en hématologie clinique destinées aux étudiants en médecine

2026-01-20 · Retour à l’index

Des questions d’examen plus pertinentes pour les médecins de demain

Les tests à choix multiple peuvent sembler peu passionnants, mais ils façonnent discrètement les compétences des futurs médecins. Chaque question d’un examen peut orienter la manière dont les étudiants envisagent les patients réels. Cette étude pose une question d’actualité : les chatbots d’intelligence artificielle modernes peuvent-ils aider des enseignants en médecine débordés à rédiger plus vite de bonnes questions d’examen en maladies du sang, sans sacrifier la qualité ni la sécurité ?

Comment l’IA a aidé à construire des questions d’examen

Les chercheurs se sont concentrés sur trois chatbots d’IA largement utilisés, tous conçus pour générer du texte. Ils ont demandé à chaque système de rédiger 50 questions à choix multiple en hématologie, le domaine qui étudie les maladies du sang comme l’anémie et la leucémie. Les questions devaient couvrir cinq sujets courants qui apparaissent aux examens médicaux et en clinique : pancytopénie (diminution de tous les types de cellules sanguines), anémie, thrombopénie (baisse des plaquettes), et deux groupes de cancers du sang appelés syndromes myéloprolifératifs et lymphoprolifératifs. Au total, les chatbots ont créé 150 questions en moins d’une demi-minute par système — une économie de temps considérable par rapport à une rédaction manuelle.

Examen approfondi des questions rédigées par l’IA

La vitesse seule n’a pas de sens si les questions sont fausses, confuses ou injustes. Pour vérifier la qualité, trois enseignants expérimentés en hématologie — qui ignoraient quel chatbot avait rédigé quelle question — ont évalué chaque item à l’aide d’une grille détaillée. Ils ont noté la précision scientifique, la pertinence clinique, la clarté de la formulation, le réalisme des mauvaises réponses et la qualité globale sur une échelle de cinq points. Ils ont aussi jugé si chaque question avait le bon niveau de difficulté pour des étudiants en médecine et si elle pouvait distinguer les étudiants forts des plus faibles. Les questions atteignant au moins 15 points sur 25 ont été jugées acceptables pour l’usage ; les autres nécessitaient une révision ou devaient être rejetées.

Quel chatbot s’en est le mieux sorti ?

Les trois systèmes ont majoritairement produit des questions solides, mais un modèle s’est démarqué. Dans l’ensemble des évaluations d’experts, ce chatbot a obtenu les meilleures notes pour la précision, la pertinence clinique et la vraisemblance des mauvaises réponses. Chacune de ses 50 questions a franchi le seuil d’acceptation, et aucune n’a nécessité de modification. Les deux autres modèles ont tout de même bien performé : plus de neuf questions sur dix de leurs lots étaient suffisantes mais requéraient des retouches mineures, souvent parce qu’une option incorrecte était trop manifestement fausse ou qu’un détail pouvait être clarifié. Globalement, les experts ont convenu que les trois outils peuvent générer rapidement du matériel d’examen très proche d’un usage en classe.

Compétences de raisonnement, pas seulement mémorisation

L’équipe s’est aussi intéressée au type de raisonnement exigé par ces questions rédigées par l’IA. En utilisant la taxonomie de Bloom — un cadre utilisé par les éducateurs pour classer les compétences mentales — ils ont regroupé les questions en connaissances et compréhension simples d’une part, et compétences de niveau supérieur comme l’application, l’analyse et l’évaluation d’autre part. De manière surprenante, les chatbots ont produit majoritairement des questions de niveau supérieur. Pour un modèle, plus de 90 % des items demandaient aux étudiants de raisonner à travers des scénarios cliniques plutôt que de simplement rappeler des faits. Les questions de simple rappel étaient relativement rares pour les trois systèmes. Ce schéma suggère que les grands modèles linguistiques, entraînés sur d’immenses corpus de textes interconnectés, privilégient naturellement des scénarios riches en contexte et orientés résolution de problèmes plutôt que des formats de type « fiches-mémo ».

Promesses, limites et nécessité d’un partenariat humain

Malgré ces atouts, l’étude a mis en lumière des lacunes importantes. Aucun des chatbots n’a proposé spontanément des questions basées sur des images, indispensables en hématologie où les cliniciens doivent interpréter des lames de microscope et des graphiques de laboratoire. Lorsqu’on leur a demandé directement des items avec images, deux systèmes ont admis ne pas pouvoir en fournir, et l’un a livré une tentative de faible qualité. L’étude s’est aussi appuyée sur l’avis d’experts plutôt que sur des données d’examen réelles d’étudiants, elle ne peut donc pas prouver entièrement la performance de ces questions en situation d’examen réelle. Les auteurs insistent sur le fait que les enseignants doivent toujours vérifier les faits, affiner la formulation et s’assurer que les concepts de base essentiels sont bien couverts.

Ce que cela signifie pour la formation médicale future

Pour le lecteur non spécialiste, la conclusion est que l’IA ne remplace pas les enseignants en médecine, mais devient un assistant puissant. Dans cette étude, les chatbots ont généré rapidement des questions majoritairement exactes et cliniquement réalistes qui aident les étudiants à s’exercer à la prise de décision en pathologies du sang. Un modèle en particulier a produit des questions d’une qualité telle que les experts les utiliseraient avec peu ou pas de modifications. Néanmoins, les machines ont négligé des vérifications de connaissances plus simples et n’ont pas pu traiter seules le matériel visuel. Les auteurs concluent que la meilleure approche est un partenariat : l’IA réalise le gros du travail de rédaction de questions variées, tandis que des experts humains orientent les consignes, complètent les notions manquantes, vérifient le contenu et s’adaptent à l’évolution des recommandations médicales.

Citation: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Mots-clés: enseignement médical, intelligence artificielle, hématologie, questions à choix multiple, chatbots