Clear Sky Science · sv

Jämförande prestationer hos nyare och tidigare stora språkmodeller och pediatriska ST-läkare på frågor från pediatriska kliniska prov

· Tillbaka till index

Varför detta spelar roll för läkare och familjer

När artificiella intelligensverktyg börjar dyka upp på sjukhus och läkarutbildningar är en avgörande fråga enkel: kan dessa system verkligen mäta sig med omdömet hos läkare under utbildning, särskilt när barns hälsa står på spel? Denna studie undersöker hur flera ledande AI-språkmodeller presterar på pediatriska provfrågor och vad det kan innebära för framtida vård och utbildning.

Testning av AI på verkliga provfrågor

Forskarlaget samlade 498 frågor från pediatriska in-training-examinationer som hölls på ett stort barnsjukhus i Korea mellan 2016 och 2023. Dessa prov används för att mäta hur väl ST-läkare utvecklas under sina fyra års utbildning. De flesta frågor var flervalsfrågor och täckte ett brett spektrum av specialiteter, från nyföddhetsvård och infektioner till hjärtsjukdomar och intensivvård. Omkring en av fem frågor innehöll medicinska bilder, såsom röntgenbilder, skanningar eller kliniska fotografier, medan resten förlitade sig enbart på skriftliga beskrivningar.

Figure 1. AI-system och pediatriska ST-läkare jämförs på skriftliga provfrågor som testar kunskap om barns hälsa.
Figure 1. AI-system och pediatriska ST-läkare jämförs på skriftliga provfrågor som testar kunskap om barns hälsa.

Hur studien jämförde människor och maskiner

Seks välkända AI-språkmodeller testades, som representerade tre stora familjer av system och två generationer för varje familj: tidigare versioner och nyare versioner med synförmåga. Modellerna matades med hela provhäften, inte enskilda frågor, och fick själva avgöra vilka delar som var själva frågetexten, vilka som var svarsalternativ och vilka som var bilder. Frågorna var ursprungligen skrivna på koreanska med engelska medicinska termer, och noggrant kontrollerade översättningar tillhandahölls. Både ST-läkare och AI graderades enligt samma regler, där ett svar räknades som korrekt om det överensstämde med den officiella lösningen eller en accepterad synonym. För att se hur stabila systemen var kördes varje testuppsättning fem gånger och konsistensen mellan körningarna beräknades.

Hur väl AI klarade sig mot pediatriska ST-läkare

Prestationen sammanfattades som andelen frågor som besvarades korrekt. Som väntat ökade människors poäng med utbildningsnivå: förstaårsst-läkare svarade korrekt på strax över hälften av frågorna, medan fjärdeårsst-läkare nådde omkring 70 procent. De nyare AI-modellerna presterade ännu bättre överlag, med ungefär 78 procent korrekta över alla frågor och slog tydligt de mest erfarna ST-läkarna. Tidigare AI-versioner presterade i nivå med seniora ST-läkare. När forskarna fokuserade endast på textbaserade frågor överträffade de senaste modellerna fjärdeårsst-läkarna med ungefär 10 procentenheter. AI-systemen var också mycket konsistenta mellan körningarna, med nästan identiska poäng varje gång.

Figure 2. AI-modeller hanterar textbaserade frågor bättre än bildbaserade när de besvarar pediatriska provuppgifter.
Figure 2. AI-modeller hanterar textbaserade frågor bättre än bildbaserade när de besvarar pediatriska provuppgifter.

Var AI fortfarande har svårigheter med bilder

Bilden förändrades när medicinska bilder var inblandade. På frågor som inkluderade bilder överträffade ingen av AI-systemen de seniora ST-läkarna. Nyare modeller gjorde bättre ifrån sig än sina föregångare och nådde mitten av 70-procentsintervallet i noggrannhet på dessa visuella uppgifter, men resultaten låg fortfarande efter deras starka prestationer på enbart textfrågor. Detta mönster gällde för olika typer av bilder, inklusive röntgen, skanningar och kliniska foton, och över ett brett spektrum av pediatriska ämnen. Resultaten bekräftar annan forskning som antyder att medan språkmodeller är starka på att läsa och resonera med text, är deras förmåga att förstå medicinska bilder, särskilt hos barn, fortfarande begränsad.

Vad detta betyder för vård och utbildning

Författarna menar att dessa resultat är uppmuntrande för utbildning men förmanande för direkt klinisk användning. Höga och stabila poäng på skriftliga provfrågor tyder på att sådana system skulle kunna fungera som användbara studiekamrater och ge pediatriska underläkare snabba övningsfrågor och förklaringar. Framgång på flervalsprov garanterar dock inte säker prestation på verkliga patienter, där information är rörigare, besluten mer komplexa och bildtolkning ofta avgörande. Kort sagt: dagens multimodala AI-verktyg kan redan konkurrera med seniora ST-läkare på skriftliga pediatriska prov, men de faller fortfarande kort på bildtunga uppgifter och är ännu inte redo att ersätta mänskligt omdöme i kliniken.

Citering: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Nyckelord: pediatrik, stora språkmodeller, medicinska prov, kliniskt beslutsstöd, läkarutbildning