Clear Sky Science · de
MediQAl: Ein französisches Datenset für medizinisches Fragenbeantworten zur Bewertung von Wissen und Schlussfolgern
Warum es wichtig ist, medizinische KI auf Französisch zu testen
Die meisten Menschen wenden sich inzwischen für Gesundheitsinformationen an Online‑Werkzeuge, oft unterstützt durch künstliche Intelligenz. Doch die große Mehrheit dieser Systeme wird in Englisch trainiert und getestet, obwohl Millionen von Patientinnen und Patienten sowie Ärztinnen und Ärzten in anderen Sprachen arbeiten. Dieser Artikel stellt MediQAl vor, eine umfangreiche Sammlung französischer Prüfungsfragen aus der Medizin, die aufzeigt, wie gut heutige KI‑Systeme Medizin auf Französisch tatsächlich verstehen und durchdenken — und wo sie noch Schwächen haben.
Ein neuer Fundus echter medizinischer Prüfungsfragen
Kern von MediQAl ist ein Bestand von 32.603 Fragen aus den nationalen französischen Staatsexamina für Mediziner. Diese Prüfungen mit hoher Bedeutung, erstellt von akademischen und klinischen Fachleuten, sind so konzipiert, dass sie die reale klinische Praxis widerspiegeln: Sie mischen Lehrbuchwissen mit unordentlichen, realen Szenarien, in denen sich Symptome über die Zeit entwickeln und wichtige Hinweise nur angedeutet sein können. Der französische Prüfungsstil erschwert die Aufgabe für Maschinen zusätzlich: Fragen sind lang, Sätze komplex, und Fallen beruhen häufig auf Negationen oder Ausnahmen wie „alle folgenden Aussagen sind richtig, außer…“. Indem MediQAl diese authentische Struktur bewahrt, bietet es einen anspruchsvollen, realistischen Prüfstand für medizinische KI jenseits vereinfachter Übungsbeispiele.

Drei Arten, eine KI‑Ärztin oder einen KI‑Arzt zu befragen
MediQAl ist in drei Aufgabentypen gegliedert, die dem Aufbau ärztlicher Prüfungen entsprechen. Die erste und größte Gruppe sind Single‑Answer‑Multiple‑Choice‑Fragen, bei denen nur eine von fünf Optionen korrekt ist. Die zweite Gruppe erlaubt mehrere richtige Optionen und zwingt Systeme dazu, Kombinationen von Befunden abzuwägen, wie ein Arzt mögliche Komplikationen gleichzeitig in Betracht ziehen würde. Die dritte Gruppe besteht aus kurzen, offenen Fragen, bei denen das System eine eigene knappe Antwort formulieren muss, statt aus einer Liste zu wählen. Jede Frage ist mit dem Schwerpunkt versehen, ob sie eher reines Verständnis (Wiedergeben oder Anwenden bekannter Fakten) oder echtes Schlussfolgern (mehrstufiges Denken, Kombinieren von Hinweisen oder Umgang mit Unsicherheit) testet. Diese Struktur erlaubt Forschenden, nicht nur zu untersuchen, was eine KI „weiß“, sondern wie sie einen Fall gedanklich durchgeht.
Wie das Datenset erstellt und geprüft wurde
Zur Erstellung von MediQAl hat die Autorin Materialien und Trainingsseiten durchforstet, auf denen Studierende und Lehrende frühere Prüfungsfragen teilen. Multiple‑Choice‑Fragen wurden automatisiert extrahiert, während die weniger strukturierten offenen Fragen eine Kombination aus Mustererkennung und manueller Kuratierung aus Webseiten und PDFs benötigten. Das Team entfernte Fragen mit fehlenden Antworten, Bildern oder Tabellen, sehr langen Freitextantworten sowie nahezu identische Duplikate, die mittels Ähnlichkeitsmaßen an Fragen und Lösungen erkannt wurden. Um das schwierigste Material in den Testsplit zu konzentrieren, wurden drei kleinere KI‑Modelle gebeten, die Fragen zu beantworten: Jede Aufgabe, die mindestens eines der Modelle löste, galt als zu leicht für den Test und wurde in Training oder Validierung umgeleitet. Anschließend prüfte eine medizinische Fachperson eine geschichtete Stichprobe von 150 Fragen und bestätigte, dass die große Mehrheit medizinisch stimmig und angemessen formuliert war; ein kleiner Anteil wurde als veraltet oder mehrdeutig gekennzeichnet.
Leitende KI‑Modelle im Test
Mit MediQAl wurden 14 große Sprachmodelle evaluiert, von bekannten kommerziellen Systemen bis hin zu Open‑Source‑Modellen, die für Medizin oder schrittweises Schlussfolgern angepasst wurden. Alle wurden im „Zero‑Shot“‑Setting getestet, das heißt, sie wurden ohne aufgabenspezifisches Coaching zur Antwort aufgefordert. Die Ergebnisse zeigen klare Muster. Erstens ist die Leistung durchweg bei einfachen Wissensabfragen höher als bei fragen mit starkem Schlussfolgerungsanteil, über alle Modelle und Aufgabentypen hinweg. Im Durchschnitt fällt die Genauigkeit bei Schlussfolgerungsfragen um mehrere Prozentpunkte gegenüber Verständnisfragen ab; die Lücke ist besonders groß bei offenen Antworten. Zweitens schneiden Modelle, die explizit zum Schlussfolgern trainiert wurden, tendenziell besser ab als ihre unmodifizierten Pendants, insbesondere bei den härtesten Fragen, bleiben aber weit hinter der Zuverlässigkeit zurück, die von praktizierenden Klinikerinnen und Klinikern erwartet wird. Drittens variiert der Erfolg stark nach Fachgebiet: Bereiche wie Genetik, Dermatologie oder Bakteriologie werden vergleichsweise gut behandelt, während Psychiatrie, Epidemiologie, Arbeitsmedizin und komplexe offene Fälle weiterhin herausfordernd sind.

Was das für Patientinnen, Patienten und Fachkräfte bedeutet
MediQAl schließt eine große Lücke, indem es ein umfassendes, sorgfältig kuratiertes Benchmark bietet, das medizinische KI auf Französisch und über 41 Fachgebiete hinweg prüft — mit Fragen, die für angehende Ärztinnen und Ärzte konzipiert sind, nicht für Maschinen. Die Befunde zeigen: Zwar können Spitzen‑Systeme Fakten oft korrekt abrufen und manchmal prüfungsähnliche Antworten liefern, doch beim Durchdenken nuancierter klinischer Fälle haben sie weiterhin Schwierigkeiten, besonders außerhalb des Englischen und in bestimmten Domänen. Für Patientinnen, Patienten und Gesundheitsfachpersonen ist die Botschaft klar: Aktuelle KI‑Werkzeuge können nützliche Assistenten sein, sind aber nicht bereit, menschliches Urteilsvermögen zu ersetzen; ihre Grenzen hängen stark von Sprache und Fachgebiet ab. Für Forschende und Regulierungsbehörden liefert MediQAl eine öffentliche, wiederverwendbare Testumgebung, um Fortschritte in sicherer, gerechter medizinischer KI zu verfolgen, die in Französisch ebenso gut funktioniert wie in Englisch.
Zitation: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
Schlüsselwörter: medizinische Fragebeantwortung, KI auf Französisch, klinisches Schlussfolgern, große Sprachmodelle, medizinische Prüfungen