Clear Sky Science · pl
MediQAl: francuski zestaw pytań medycznych do oceny wiedzy i rozumowania
Dlaczego testowanie medycznej SI po francusku ma znaczenie
Większość osób dziś korzysta z narzędzi online, czasem opartych na sztucznej inteligencji, w poszukiwaniu informacji zdrowotnych. Tymczasem zdecydowana większość tych systemów jest trenowana i testowana w języku angielskim, mimo że miliony pacjentów i lekarzy pracują w innych językach. Ten artykuł przedstawia MediQAl, dużą kolekcję francuskich pytań z egzaminów medycznych, zaprojektowaną tak, by ujawnić, na ile współczesne systemy SI rzeczywiście rozumieją medycynę po francusku i potrafią wnioskować, oraz gdzie wciąż zawodzą.
Nowy zbiór autentycznych pytań egzaminacyjnych
Rdzeniem MediQAl jest zbiór 32 603 pytań pochodzących z krajowych egzaminów lekarskich we Francji. Te egzaminy o wysokiej stawce, tworzone przez specjalistów akademickich i szpitalnych, mają odzwierciedlać rzeczywistą praktykę kliniczną: łączą wiedzę z podręczników z nieuporządkowanymi, realistycznymi scenariuszami, w których objawy rozwijają się w czasie, a istotne wskazówki mogą być tylko dorozumiane. Francuski styl egzaminów stawia maszynom dodatkowe wyzwania: pytania są długie, zdania złożone, a pułapki często opierają się na negacjach lub wyjątkach typu „wszystkie poniższe są prawdziwe, z wyjątkiem…”. Zachowując tę autentyczną strukturę, MediQAl oferuje wymagające, realistyczne pole do testowania medycznej SI poza uproszczonymi przykładami szkolnymi.

Trzy sposoby pytania sztucznego lekarza
MediQAl jest zorganizowany w trzy typy zadań, które odzwierciedlają sposób, w jaki testuje się lekarzy. Pierwsza i największa grupa to pytania wielokrotnego wyboru z jedną poprawną odpowiedzią spośród pięciu opcji. Druga grupa dopuszcza kilka poprawnych opcji, zmuszając systemy do rozważenia kombinacji ustaleń tak, jak lekarz rozważałby kilka możliwych komplikacji jednocześnie. Trzecia grupa składa się z krótkich pytań otwartych, w których system musi wygenerować własną krótką odpowiedź zamiast wybierać z listy. Każde pytanie jest oznaczone jako sprawdzające proste rozumienie (przypomnienie lub zastosowanie znanych faktów) lub prawdziwe rozumowanie (wieloetapowe myślenie, łączenie wskazówek lub radzenie sobie z niepewnością). Taka struktura pozwala badaczom badać nie tylko to, co SI „wie”, lecz także sposób, w jaki rozwiązuje przypadek.
Jak powstał i został zweryfikowany zbiór
Aby złożyć MediQAl, autor pozyskał pytania ze stron szkoleniowych i oficjalnych materiałów, gdzie studenci i nauczyciele udostępniają zadania z poprzednich egzaminów. Pytania wielokrotnego wyboru zostały wydobyte automatycznie, podczas gdy mniej ustrukturyzowane pytania otwarte wymagały kombinacji dopasowywania wzorców i ręcznej selekcji z stron internetowych i plików PDF. Zespół usunął pytania z brakującymi odpowiedziami, obrazami lub tabelami, bardzo długimi odpowiedziami tekstowymi oraz niemal identyczne duplikaty wykryte przy użyciu miar podobieństwa zarówno na poziomie pytań, jak i rozwiązań. Aby skupić najtrudniejszy materiał do zbioru testowego, poproszono trzy mniejsze modele SI o udzielenie odpowiedzi na pytania: każdą pozycję, którą co najmniej jeden model rozwiązał, uznano za zbyt łatwą do testowania i przekierowano do zbioru treningowego lub walidacyjnego. Ekspert medyczny następnie przejrzał warstwowo dobraną próbę 150 pytań, potwierdzając, że zdecydowana większość jest poprawna medycznie i właściwie sformułowana, z niewielkim odsetkiem oznaczonym jako przestarzałe lub niejednoznaczne.
Wystawianie wiodących modeli SI na próbę
Mając MediQAl, badanie oceniło 14 dużych modeli językowych, od powszechnie znanych systemów komercyjnych po modele open‑source dostrojone do medycyny lub wieloetapowego rozumowania. Wszystkie testowano w trybie „zero‑shot”, co oznacza, że proszono je o odpowiedź bez specjalnego dostrajania pod zadanie. Wyniki ujawniają wyraźne wzorce. Po pierwsze, wyniki są konsekwentnie wyższe w pytaniach wymagających prostego przypomnienia niż w tych obciążonych rozumowaniem, we wszystkich modelach i typach zadań. Średnio dokładność w pytaniach wymagających rozumowania spada o kilka punktów w porównaniu z pytaniami sprawdzającymi rozumienie, a różnica jest szczególnie duża w przypadku odpowiedzi otwartych. Po drugie, modele wyraźnie szkolone do rozumowania mają tendencję do przewyższania swoich „standardowych” odpowiedników, szczególnie w najtrudniejszych zadaniach, ale nadal pozostają daleko od niezawodności oczekiwanej od praktykujących klinicystów. Po trzecie, skuteczność znacznie różni się w zależności od specjalności: obszary takie jak genetyka, dermatologia czy bakteriologia są stosunkowo dobrze obsługiwane, podczas gdy dziedziny takie jak psychiatria, epidemiologia, medycyna pracy i złożone przypadki otwarte pozostają wyzwaniem.

Co to oznacza dla pacjentów i praktyków
MediQAl wypełnia istotną lukę, oferując duży, starannie przygotowany benchmark, który testuje medyczną SI po francusku i w 41 specjalnościach, używając pytań przeznaczonych dla przyszłych lekarzy, a nie dla maszyn. Wnioski pokazują, że choć najlepsze systemy często potrafią poprawnie przywołać fakty i czasem dopasować odpowiedzi w stylu egzaminacyjnym, nadal mają trudności, gdy trzeba rozumować przez zniuansowane historie kliniczne, zwłaszcza poza angielskim i w niektórych domenach. Dla pacjentów i pracowników służby zdrowia przesłanie jest jasne: obecne narzędzia SI mogą być przydatnymi asystentami, ale nie są gotowe, by zastąpić ludzkie osądy, a ich ograniczenia silnie zależą od języka i specjalności. Dla badaczy i regulatorów MediQAl dostarcza publiczne, wielokrotnego użytku pole testowe do śledzenia postępów w bezpiecznej, sprawiedliwej medycznej SI działającej równie dobrze po francusku co po angielsku.
Cytowanie: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
Słowa kluczowe: odpowiadanie na pytania medyczne, Sztuczna inteligencja w języku francuskim, rozumowanie kliniczne, duże modele językowe, egzaminy medyczne