Clear Sky Science · nl

MediQAl: een Franse dataset voor medische vraag‑antwoordsystemen ter evaluatie van kennis en redenering

2026-02-05 · Terug naar het overzicht

Waarom het testen van medische AI in het Frans belangrijk is

De meeste mensen raadplegen tegenwoordig online hulpmiddelen, soms aangedreven door kunstmatige intelligentie, voor gezondheidsinformatie. Toch worden de overgrote meerderheid van deze systemen in het Engels getraind en getest, terwijl miljoenen patiënten en artsen andere talen gebruiken. Dit artikel presenteert MediQAl, een omvangrijke verzameling Franse medische examenvragen die moet aantonen hoe goed de huidige AI‑systemen echt medische kennis in het Frans begrijpen en redeneren, en waar ze nog tekortschieten.

Een nieuwe bron van echte medische examenvragen

De kern van MediQAl bestaat uit een verzameling van 32.603 vragen afkomstig uit de Franse nationale artsenexamens. Deze examens met hoge inzet, opgesteld door academische en ziekenhuispecialisten, zijn bedoeld om de dagelijkse klinische praktijk te weerspiegelen: ze combineren leerboekfeiten met rommelige, real‑world scenario’s waarin symptomen zich in de tijd ontvouwen en belangrijke aanwijzingen soms slechts geïmpliceerd zijn. De Franse examenvorm voegt extra moeilijkheid toe voor machines: vragen zijn lang, zinnen complex, en valkuilen berusten vaak op ontkenningen of uitzonderingen zoals “alle volgende beweringen zijn waar, behalve…”. Door deze authentieke structuur te behouden, biedt MediQAl een veeleisende, realistische testomgeving voor medische AI buiten de vereenvoudigde voorbeelden uit de klas.

Drie manieren om een AI‑arts te bevragen

MediQAl is georganiseerd in drie taaktypen die aansluiten bij hoe artsen worden geëxamineerd. De eerste en grootste groep bestaat uit meerkeuzevragen met één correct antwoord, waarbij slechts één van de vijf opties klopt. De tweede groep staat meerdere correcte opties toe, wat systemen dwingt combinaties van bevindingen af te wegen zoals een arts meerdere mogelijke complicaties tegelijk zou overwegen. De derde groep bevat korte open vragen waarbij het systeem een eigen beknopt antwoord moet genereren in plaats van uit een lijst te kiezen. Elke vraag is gelabeld als het testen van eenvoudig begrip (herinneren of toepassen van bekende feiten) of van echt redeneren (meerstapsdenken, combineren van aanwijzingen of omgaan met onzekerheid). Deze structuur stelt onderzoekers in staat niet alleen te onderzoeken wat een AI “weet”, maar ook hoe het een casus doordenkt.

Hoe de dataset is samengesteld en gecontroleerd

Om MediQAl samen te stellen, heeft de auteur trainingssites en officiële materialen waarop studenten en docenten oude examenvragen delen, gescraped. Meerkeuzevragen werden automatisch geëxtraheerd, terwijl de minder gestructureerde open vragen een mix van patroonherkenning en handmatige curatie uit webpagina’s en pdf’s vereisten. Het team verwijderde vragen met ontbrekende antwoorden, afbeeldingen of tabellen, zeer lange vrije‑tekstantwoorden en bijna‑duplicaten die werden opgespoord met gelijkenismaten op zowel vragen als oplossingen. Om het moeilijkste materiaal in de testset te concentreren, werd aan drie kleinere AI‑modellen gevraagd de vragen te beantwoorden: elk item dat ten minste één model correct oploste, werd als te eenvoudig voor de test beschouwd en naar training of validatie doorverwezen. Een medisch expert beoordeelde vervolgens een gestratificeerde steekproef van 150 vragen en bevestigde dat de overgrote meerderheid medisch degelijk en passend geformuleerd was, met een klein aandeel dat als verouderd of dubbelzinnig werd aangemerkt.

Geavanceerde AI‑modellen aan de tand voelen

Met MediQAl in handen evalueerde de studie 14 grote taalmodellen, variërend van breed bekende commerciële systemen tot open‑source modellen afgestemd op geneeskunde of op stapsgewijs redeneren. Alle modellen werden getest in een "zero‑shot" setting, wat betekent dat ze simpelweg werden gevraagd te antwoorden zonder taak‑specifieke instructies. De resultaten tonen duidelijke patronen. Ten eerste presteren modellen consequent beter op eenvoudige herinneringsvragen dan op vragen die zwaar op redeneren leunen, over alle modellen en taaktypen heen. Gemiddeld daalt de nauwkeurigheid bij redeneervragen met enkele punten vergeleken met begrijpsvragen, waarbij het verschil vooral groot is voor open antwoorden. Ten tweede neigen modellen die expliciet op redeneren zijn getraind tot betere prestaties dan hun "vanilla" tegenhangers, vooral bij de moeilijkste vragen, maar ze blijven ver achter bij de betrouwbaarheid die van praktiserende klinici verwacht wordt. Ten derde varieert succes sterk per specialisme: vakgebieden als genetica, dermatologie of bacteriologie worden relatief goed behandeld, terwijl gebieden zoals psychiatrie, epidemiologie, arbeidsgeneeskunde en complexe open casussen uitdagend blijven.

Wat dit betekent voor patiënten en zorgverleners

MediQAl vult een belangrijke leemte door een grote, zorgvuldig samengestelde benchmark te bieden die medische AI in het Frans en over 41 specialismen test, met vragen bedoeld voor toekomstige artsen en niet voor machines. De bevindingen laten zien dat, hoewel topmodellen vaak feiten correct kunnen ophalen en soms examen‑achtige antwoorden produceren, ze nog steeds moeite hebben met het doorredeneren van genuanceerde klinische casussen, vooral buiten het Engels en in bepaalde domeinen. Voor patiënten en zorgverleners is de boodschap helder: huidige AI‑hulpmiddelen kunnen nuttige assistenten zijn maar zijn niet klaar om menselijk oordeel te vervangen, en hun beperkingen hangen sterk af van taal en specialisme. Voor onderzoekers en toezichthouders biedt MediQAl een openbare, herbruikbare testomgeving om vooruitgang te volgen in veilige, eerlijke medische AI die in het Frans net zo goed werkt als in het Engels.

Bronvermelding: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y

Trefwoorden: medische vraag‑antwoord systemen, AI in de Franse taal, klinisch redeneren, grote taalmodellen, medische examens