Clear Sky Science · sv
MediQAl: en fransk dataset för medicinska frågor och svar för utvärdering av kunskap och slutledning
Varför det är viktigt att testa medicinsk AI på franska
De flesta vänder sig idag till onlineverktyg, ibland drivna av artificiell intelligens, för hälsoinformation. Ändå är majoriteten av dessa system tränade och testade på engelska, trots att miljontals patienter och läkare använder andra språk. Denna artikel presenterar MediQAl, en omfattande samling franska frågor från läkarprov utformad för att visa hur väl dagens AI‑system faktiskt förstår och resonerar om medicin på franska, och var de fortfarande brister.
En ny samling riktiga frågor från läkarprov
Kärnan i MediQAl är ett förråd om 32 603 frågor hämtade från Frankrikes nationella läkarlicensprov. Dessa prov, skrivna av akademiska och sjukhusspecialister, är utformade för att spegla verklig klinisk praktik: de blandar faktakunskaper ur läroböcker med rörigare, verkliga scenarier där symtom utvecklas över tid och viktiga ledtrådar kan vara endast antydda. Den franska provstilen ökar svårigheten för maskiner: frågorna är långa, meningarna komplexa och fällor bygger ofta på negationer eller undantag som ”följande är sanna, utom…”. Genom att bevara denna autentiska struktur erbjuder MediQAl en krävande, realistisk testmiljö för medicinsk AI bortom förenklade skol‑exempel.

Tre sätt att pröva en AI‑läkare
MediQAl är organiserat i tre uppgiftstyper som speglar hur läkare testas. Den första och största gruppen är flervalsfrågor med ett svar, där endast ett av fem alternativ är korrekt. Den andra gruppen tillåter flera korrekta alternativ, vilket tvingar systemen att väga kombinationer av fynd på samma sätt som en läkare kan överväga flera möjliga komplikationer samtidigt. Den tredje gruppen består av korta, öppna frågor där systemet måste generera sitt eget korta svar istället för att välja från en lista. Varje fråga är märkt som antingen tester av enkel förståelse (återkallande eller tillämpning av kända fakta) eller verklig slutledning (flera steg i tänkandet, kombinera ledtrådar eller hantera osäkerhet). Denna struktur låter forskare undersöka inte bara vad en AI ”kan”, utan hur den resonerar genom ett fall.
Hur datasetet skapades och granskades
För att sätta ihop MediQAl skrapade författaren utbildningssajter och officiellt material där studenter och lärare delar tidigare provfrågor. Flervalsfrågor extraherades automatiskt, medan de mer ostrukturerade öppna frågorna krävde en blandning av mönstermatchning och manuell kuratering från webbsidor och PDF:er. Teamet tog bort frågor med saknade svar, bilder eller tabeller, mycket långa fritextsvar och närduplikat upptäckta med likhetsmått både på frågor och lösningar. För att koncentrera det svåraste materialet till testuppsättningen fick tre mindre AI‑modeller försöka svara på frågorna: varje post som åtminstone en modell löste bedömdes vara för lätt för testning och omplacerades till träning eller validering. En medicinsk expert granskade sedan ett stratifierat urval av 150 frågor och bekräftade att stor majoritet var medicinskt hållbara och lämpligt formulerade, med en liten andel flaggade som inaktuella eller tvetydiga.
Att pröva ledande AI‑modeller
Med MediQAl i handen utvärderade studien 14 stora språkmodeller, från välkända kommersiella system till öppen källkod‑modeller finjusterade för medicin eller för steg‑för‑steg‑slutledning. Alla testades i en ”zero‑shot” inställning, vilket innebär att de helt enkelt uppmanades att svara utan uppgiftsspecifik träning. Resultaten visar tydliga mönster. För det första är prestandan konsekvent högre på enkla faktabaserade frågor än på slutningskrävande frågor, över varje modell och uppgiftstyp. I genomsnitt sjunker noggrannheten på slutningsfrågor med flera procentenheter jämfört med förståelsefrågor, med en särskilt stor skillnad för öppna svar. För det andra tenderar modeller som uttryckligen tränats för slutledning att prestera bättre än sina ”vanilla” motsvarigheter, särskilt på de svåraste frågorna, men når ändå långt ifrån den tillförlitlighet som förväntas av praktiserande kliniker. För det tredje varierar framgången mycket mellan specialiteter: ämnen som genetik, dermatologi eller bakteriologi hanteras relativt väl, medan områden som psykiatri, epidemiologi, arbetsmedicin och komplexa öppna fall förblir utmanande.

Vad detta betyder för patienter och vårdgivare
MediQAl fyller en stor lucka genom att erbjuda en stor, noggrant kuraterad benchmark som testar medicinsk AI på franska och över 41 specialiteter, med frågor avsedda för blivande läkare snarare än för maskiner. Resultaten visar att även om toppsystem ofta kan återkalla fakta korrekt och ibland matcha prov‑liknande svar, kämpar de fortfarande när de ombeds resonera genom nyanserade kliniska berättelser, särskilt utanför engelskan och inom vissa områden. För patienter och vårdpersonal är budskapet tydligt: nuvarande AI‑verktyg kan vara hjälpsamma assistenter men är inte redo att ersätta mänskligt omdöme, och deras begränsningar beror starkt på språk och specialitet. För forskare och tillsynsmyndigheter ger MediQAl en offentlig, återanvändbar testbädd för att följa framsteg inom säker, rättvis medicinsk AI som fungerar lika bra på franska som på engelska.
Citering: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
Nyckelord: medicinsk frågehantering, AI på franska, klinisk slutledning, stora språkmodeller, läkarexamen