Clear Sky Science · fr

MediQAl : un jeu de données français de questions médicales pour l’évaluation des connaissances et du raisonnement

· Retour à l’index

Pourquoi il est important de tester l’IA médicale en français

La plupart des personnes consultent aujourd’hui des outils en ligne, parfois alimentés par l’intelligence artificielle, pour obtenir des informations de santé. Pourtant, la grande majorité de ces systèmes sont entraînés et évalués en anglais, alors que des millions de patients et de médecins travaillent dans d’autres langues. Cet article présente MediQAl, une vaste collection de questions d’examens médicaux français conçue pour révéler à quel point les systèmes d’IA actuels comprennent et raisonnent réellement en médecine en français, et quelles sont leurs lacunes.

Un nouveau corpus de véritables questions d’examens médicaux

Le cœur de MediQAl est un ensemble de 32 603 questions extraites des examens nationaux français de délivrance du droit d’exercice médical. Ces épreuves à forts enjeux, rédigées par des spécialistes universitaires et hospitaliers, sont conçues pour refléter la pratique clinique réelle : elles mêlent des connaissances de manuel à des scénarios concrets et complexes dans lesquels les symptômes évoluent dans le temps et des indices importants peuvent n’être qu’implicites. Le format des examens français ajoute une difficulté supplémentaire pour les machines : les questions sont longues, les phrases complexes, et des pièges reposent souvent sur des négations ou des exceptions comme « toutes les propositions suivantes sont vraies, sauf… ». En préservant cette structure authentique, MediQAl offre un terrain d’évaluation exigeant et réaliste, au‑delà des exemples simplifiés de laboratoire.

Figure 1
Figure 1.

Trois façons d’interroger un « médecin » IA

MediQAl est organisé en trois types de tâches qui reflètent la façon dont on évalue les médecins. Le premier et plus important groupe est constitué de QCM à réponse unique, où une seule des cinq options est correcte. Le deuxième groupe autorise plusieurs réponses correctes, contraignant les systèmes à pondérer des combinaisons de constatations comme le ferait un médecin confronté à plusieurs complications possibles. Le troisième groupe comprend des questions ouvertes courtes où le système doit générer sa propre réponse brève au lieu de choisir dans une liste. Chaque question est étiquetée comme relevant soit de la compréhension simple (rappeler ou appliquer des faits connus), soit du véritable raisonnement (pensée en plusieurs étapes, combinaison d’indices, ou gestion de l’incertitude). Cette structure permet aux chercheurs d’explorer non seulement ce qu’une IA « sait », mais aussi comment elle raisonne sur un cas.

Comment le jeu de données a été construit et vérifié

Pour assembler MediQAl, l’auteur a récupéré des sites de préparation et des documents officiels où étudiants et enseignants partagent des questions d’examens passées. Les questions à choix multiple ont été extraites automatiquement, tandis que les questions ouvertes, moins structurées, ont nécessité un mélange de recherche par motifs et de curation manuelle à partir de pages web et de PDF. L’équipe a retiré les questions dont les réponses manquaient, ainsi que celles contenant des images ou des tableaux, des réponses en texte libre trop longues, et des quasi‑doublons détectés par des mesures de similarité sur les questions et les solutions. Pour concentrer le matériel le plus difficile dans la portion de test, trois petits modèles d’IA ont été sollicités pour répondre aux questions : tout item résolu par au moins un modèle a été jugé trop facile pour être testé et a été redirigé vers les jeux d’entraînement ou de validation. Un expert médical a ensuite examiné un échantillon stratifié de 150 questions, confirmant que la grande majorité étaient médicalement valides et correctement formulées, une petite fraction ayant été signalée comme obsolète ou ambiguë.

Évaluer les principaux modèles d’IA

Avec MediQAl en main, l’étude a évalué 14 grands modèles de langage, allant de systèmes commerciaux largement connus à des modèles open source ajustés pour la médecine ou pour le raisonnement pas à pas. Tous ont été testés en configuration « zéro‑exemple », c’est‑à‑dire simplement sollicités pour répondre sans entraînement spécifique à la tâche. Les résultats montrent des tendances claires. Premièrement, les performances sont systématiquement supérieures sur les questions de simple rappel que sur celles nécessitant du raisonnement, pour tous les modèles et types de tâches. En moyenne, la précision sur les questions de raisonnement baisse de plusieurs points par rapport aux questions de compréhension, l’écart étant particulièrement important pour les réponses ouvertes. Deuxièmement, les modèles explicitement entraînés au raisonnement ont tendance à surpasser leurs homologues « standards », surtout sur les questions les plus difficiles, mais restent loin de la fiabilité attendue d’un clinicien en exercice. Troisièmement, la réussite varie largement selon les spécialités : des domaines comme la génétique, la dermatologie ou la bactériologie sont relativement bien traités, tandis que des champs tels que la psychiatrie, l’épidémiologie, la médecine du travail et les cas ouverts complexes demeurent difficiles.

Figure 2
Figure 2.

Ce que cela signifie pour les patients et les praticiens

MediQAl comble une lacune importante en offrant un benchmark vaste et soigneusement curaté qui teste l’IA médicale en français et sur 41 spécialités, en utilisant des questions destinées à de futurs médecins plutôt qu’à des machines. Les conclusions indiquent que, si les meilleurs systèmes peuvent souvent restituer correctement des faits et parfois reproduire des réponses de type examen, ils peinent encore à raisonner sur des histoires cliniques nuancées, surtout hors de l’anglais et dans certains domaines. Pour les patients et les professionnels de santé, le message est clair : les outils d’IA actuels peuvent être des assistants utiles mais ne sont pas prêts à remplacer le jugement humain, et leurs limites dépendent fortement de la langue et de la spécialité. Pour les chercheurs et les régulateurs, MediQAl fournit un banc d’essai public et réutilisable pour suivre les progrès vers une IA médicale sûre et équitable fonctionnant aussi bien en français qu’en anglais.

Citation: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y

Mots-clés: réponses aux questions médicales, IA en langue française, raisonnement clinique, grands modèles de langage, examens médicaux