Clear Sky Science · nl
Vergelijkende prestaties van recente en eerdere grote taalmodellen en kindergeneeskundige AI-artsen op vragen van het pediatrisch in-training examen
Waarom dit ertoe doet voor artsen en gezinnen
Naarmate kunstmatige intelligentie in ziekenhuizen en medische opleidingen opduikt, is een centrale vraag eenvoudig: kunnen deze systemen werkelijk het oordeel van artsen in opleiding evenaren, zeker wanneer het om de gezondheid van kinderen gaat? Deze studie onderzoekt hoe enkele toonaangevende AI-taalmodellen presteren op pediatrische examenvragen en wat dat kan betekenen voor toekomstige zorg en opleiding.
AI testen op echte examenvragen
De onderzoekers verzamelden 498 vragen uit pediatrische in-training examens die tussen 2016 en 2023 werden afgenomen in een groot kinderziekenhuis in Korea. Deze examens worden gebruikt om te beoordelen hoe goed arts-assistenten vorderen tijdens hun vierjarige opleiding. De meeste vragen waren meerkeuzevragen en besloegen een breed scala aan specialismen, van pasgeborenenzorg en infecties tot hartziekten en intensieve zorg. Ongeveer één op de vijf vragen bevatte medische beelden, zoals röntgenfoto’s, scans of klinische foto’s, terwijl de rest alleen op schriftelijke beschrijvingen berustte.

Hoe de studie mensen en machines vergeleek
Zes bekende AI-taalmodellen werden getest, die drie belangrijke families van systemen vertegenwoordigden en twee generaties per familie: eerdere versies en recentere versies met visuele mogelijkheden. De modellen kregen volledige examenbundels voorgelegd, niet losse vragen, en moesten zelf bepalen welke delen de vraagtekst waren, welke de antwoordkeuzes en welke de afbeeldingen. Vragen waren oorspronkelijk in het Koreaans geschreven met Engelse medische termen, en zorgvuldig gecontroleerde vertalingen werden aangeleverd. Zowel de arts-assistenten als de AI’s werden volgens dezelfde regels beoordeeld; een antwoord telde als correct als het overeenkwam met de officiële oplossing of een geaccepteerde synoniem. Om de stabiliteit van de systemen te meten, werd elke testsessie vijf keer uitgevoerd en werd de consistentie tussen de runs berekend.
Hoe goed AI het deed ten opzichte van kinderartsen in opleiding
De prestaties werden samengevat als het aandeel vragen dat correct werd beantwoord. Zoals verwacht stegen de scores van mensen met het opleidingsniveau: eerstejaars beantwoordden iets meer dan de helft van de vragen correct, terwijl vierdejaars ongeveer zeventig procent bereikten. De nieuwere AI-modellen deden het overall nog beter en scoorden ongeveer 78 procent over alle vragen, waarmee ze duidelijk de meest ervaren assistenten versloegen. Eerdere AI-versies presteerden vergelijkbaar met de senior-assistenten. Wanneer de onderzoekers zich uitsluitend op tekstgebaseerde vragen richtten, waren de recente modellen ongeveer tien procentpunt beter dan vierdejaars. De AI-systemen waren ook zeer consistent tussen runs, met vrijwel identieke scores bij elke uitvoering.

Waar AI nog steeds moeite heeft met beelden
Het beeld veranderde zodra medische afbeeldingen werden betrokken. Bij vragen met beelden presteerde geen enkel AI-systeem beter dan de senior-assistenten. Nieuwere modellen deden het beter dan hun voorgangers en bereikten rond de midden-70 procent nauwkeurigheid op deze visuele items, maar hun resultaten bleven achter bij hun sterke prestaties op tekst-only vragen. Dit patroon deed zich voor bij verschillende soorten beelden, waaronder röntgenfoto’s, scans en klinische foto’s, en over een breed scala aan pediatrische onderwerpen. De bevindingen sluiten aan bij ander onderzoek dat suggereert dat taalmodellen sterk zijn in het lezen en redeneren met tekst, maar dat hun vermogen om medische beelden te begrijpen, vooral bij kinderen, nog beperkt is.
Wat dit betekent voor zorg en opleiding
De auteurs stellen dat deze resultaten bemoedigend zijn voor onderwijs, maar waarschuwen voor direct klinisch gebruik. Hoge en stabiele scores op schriftelijke examenvragen suggereren dat zulke systemen nuttige oefenpartners kunnen zijn, die pediatrische arts-assistenten snel oefenvragen en uitleg kunnen bieden. Succes op meerkeuzetests garandeert echter geen veilige prestaties bij echte patiënten, waar informatie rommeliger is, beslissingen complex zijn en beeldinterpretatie cruciaal kan zijn. Kortom: de huidige multimodale AI-instrumenten kunnen op schriftelijke pediatrische examens al concurreren met senior-assistenten, maar ze lopen nog achter op beeldzware taken en zijn nog niet klaar om menselijk oordeel in de kliniek te vervangen.
Bronvermelding: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7
Trefwoorden: pediatrie, grote taalmodellen, medische examens, klinische besluitvorming, medisch onderwijs