Clear Sky Science · nl

Grote taalmodellen versus prestaties van menselijke kandidaten op Israëlische anesthesiologie-examens

· Terug naar het overzicht

Waarom dit ertoe doet voor artsen en patiënten

Naarmate hulpmiddelen met kunstmatige intelligentie steeds sneller hun intrede doen in ziekenhuizen en onderwijs, is een belangrijke vraag hoe ze het doen vergeleken met echte artsen wanneer ze getest worden op kernkennis van de geneeskunde. Deze studie onderzoekt hoe twee geavanceerde taalmodellen presteerden tegenover honderden menselijke anesthesiologieresidenten op de officiële schriftelijke bestuursexamens van Israël, en geeft daarmee een indruk van wat AI wel en niet klaar is om te doen in medische opleiding.

Het testen van mensen en machines op hetzelfde examen

De onderzoekers verkregen drie opeenvolgende jaren van Israëlische Step 1-anesthesiologie-examens, een meerkeuzetoets die halverwege de residentie wordt afgenomen. Elk examen bevatte 150 vragen in het Hebreeuws, met onderwerpen variërend van basiswetenschappen en klinische fundamenten tot subspecialistische anesthesie en spoedeisende zorg. Naast geanonimiseerde groepsresultaten van 381 residenten testte het team ook twee commerciële AI-systemen, Claude 3.7 Sonnet en ChatGPT-4, op alle 450 vragen. De modellen antwoordden in het Hebreeuws, zagen dezelfde afbeeldingen en golfformen als de residenten en werden verhinderd eerdere vragen te onthouden. Elk model maakte elk examen twee keer zodat het team zowel nauwkeurigheid als interne consistentie kon meten.

Figure 1. Mensen en AI die hetzelfde anesthesiologie-examen beantwoorden om de algehele testprestatie te vergelijken.
Figure 1. Mensen en AI die hetzelfde anesthesiologie-examen beantwoorden om de algehele testprestatie te vergelijken.

Hoe goed de AI-modellen scoorden

Gemiddeld over alle examens beantwoordde Claude 3.7 Sonnet ongeveer drie van de vier vragen correct, duidelijk boven de algemene score van de residenten van iets meer dan drie van de vijf. ChatGPT-4 deed iets beter dan de residenten maar niet met een grote voorsprong. Claude overschreed de officiële slaaggrens bij elke poging, terwijl ChatGPT-4 slechts de helft van de keren slaagde. Toch bleven beide AI-systemen achter bij het bovenste kwart van menselijke kandidaten, die gemiddeld dicht bij vier van de vijf vragen goed hadden. Met andere woorden: de huidige modellen presteerden beter dan de typische resident op deze schriftelijke toetsen, maar bereikten niet het niveau van de sterkste menselijke kandidaten.

Sterke punten, zwakke punten en ongelijkmatige prestaties

De studie toonde aan dat de AI-systemen niet even goed waren over alle vraagtypes heen. Beide modellen behandelden makkelijkere items zeer goed en deden het relatief het beste op theoretische gebieden zoals hartfunctie, waar regels en concepten goed zijn vastgesteld. Hun prestatie nam af bij moeilijkere vragen en in praktische gebieden zoals poliklinische anesthesie en regionale anesthesie, waar context, oordeelsvorming en genuanceerde klinische ervaring belangrijk zijn. Vragen met afbeeldingen, scans of monitoringsporen leverden hen ook meer problemen op dan tekst-only items, terwijl menselijke residenten op beide formaten vergelijkbaar scoorden. Claude en ChatGPT vertoonden aanzienlijke interne consistentie wanneer ze hetzelfde examen twee keer kregen, maar ze kwamen slechts matig overeen met de antwoordpatronen van menselijke kandidaten.

Figure 2. Naast elkaar uitgezette paden die laten zien hoe mensen en AI verschillende vraagtypes van het examen aanpakken met uiteenlopende nauwkeurigheidsniveaus.
Figure 2. Naast elkaar uitgezette paden die laten zien hoe mensen en AI verschillende vraagtypes van het examen aanpakken met uiteenlopende nauwkeurigheidsniveaus.

Wat dit betekent voor medische opleiding

Dit ongelijkmatige beeld heeft belangrijke implicaties voor hoe AI in de opleiding van artsen gebruikt zou moeten worden. Omdat de nauwkeurigheid van de modellen varieert van bijna perfect in sommige onderwerpen tot verontrustend laag in andere, kan het vertrouwen op hen als hoofdbron tijdens het studeren misleidend zijn voor lerenden. Een resident kan bijvoorbeeld uitstekende uitleg krijgen over hartfysiologie maar slechte begeleiding over bepaalde anesthesietechnieken zonder het verschil te beseffen. De auteurs betogen dat deze hulpmiddelen voorzichtig in het onderwijs moeten worden ingezet, met nauwe menselijke supervisie, feitencontrole en helder bewustzijn van hun blinde vlekken, met name in domeinen die afbeeldingen en complexe beslissingen uit de echte wereld betreffen.

Conclusie voor de toekomst van AI en anesthesie

De studie concludeert dat geavanceerde taalmodellen nu beter presteren dan de gemiddelde anesthesiologieresident op een uitdagend nationaal schriftelijk examen, maar ze blijven achter bij de beste menselijke presteerders en vertonen grote hiaten tussen onderwerpen. Het slagen voor een meerkeuzetoets is slechts één deel van wat het betekent om een veilige anesthesioloog te zijn; dat vereist ook praktische vaardigheden, crisismanagement en communicatie met patiënten en teams. De auteurs suggereren dat de werkelijke belofte van AI niet ligt in het vervangen van clinici, maar in het ondersteunen van hen—het versterken van leren en besluitvorming wanneer het doordacht wordt gebruikt naast menselijke expertise.

Bronvermelding: Ronen, A., Fein, S., Orbach-Zinger, S. et al. Large language models versus human examinee performance on Israeli anesthesiology board examinations. Sci Rep 16, 14978 (2026). https://doi.org/10.1038/s41598-026-45411-6

Trefwoorden: anesthesiologie-opleiding, bestuurs examens, grote taalmodellen, medische AI-beoordeling, klinische bekwaamheid