Clear Sky Science · nl

Evaluatie van drie kunstmatige-intelligentiechatbots voor het genereren van meerkeuzevragen klinische hematologie voor geneeskundestudenten

· Terug naar het overzicht

Slimmere toetsvragen voor de artsen van morgen

Meerkeuzetoetsen klinken misschien niet spannend, maar ze vormen stilletjes de vaardigheden van toekomstige artsen. Elke vraag op een examen kan sturen hoe studenten over echte patiënten nadenken. Deze studie stelt een actuele vraag: kunnen moderne AI-chatbots drukbezette medische docenten helpen om sneller goede examenvragen over bloedziekten te schrijven, zonder in te boeten op kwaliteit of veiligheid?

Hoe AI hielp bij het opstellen van toetsvragen

De onderzoekers concentreerden zich op drie veelgebruikte AI-chatbots, allemaal ontworpen om tekst te genereren. Ze vroegen elk systeem om 50 meerkeuzevragen te schrijven over hematologie, het vakgebied dat bloedziekten zoals bloedarmoede en leukemie bestudeert. De vragen moesten vijf veelvoorkomende onderwerpen beslaan die in medische examens en de kliniek voorkomen: pancytopenie (lage aantallen van alle bloedcellen), anemie, trombocytopenie (lage bloedplaatjes), en twee groepen bloedkankers die myelo- en lymfoproliferatieve syndromen worden genoemd. In totaal creëerden de chatbots 150 vragen in minder dan een halve minuut per systeem — een enorme tijdsbesparing vergeleken met handmatig schrijven.

Figure 1
Figuur 1.

AI-geschreven vragen onder de microscoop

Snelheid alleen is zinloos als de vragen onjuist, verwarrend of onterecht zijn. Om de kwaliteit te controleren, beoordeelden drie ervaren hematologiedocenten — die niet wisten welke chatbot welke vraag had geschreven — elk item met een gedetailleerde checklist. Ze beoordeelden wetenschappelijke nauwkeurigheid, klinische relevantie, duidelijkheid van formulering, realisme van de onjuiste antwoordkeuzes en de algehele kwaliteit op een vijfpuntsschaal. Daarnaast oordeelden ze of elke vraag het juiste niveau had voor geneeskundestudenten en of de vraag sterke studenten van zwakkere kon onderscheiden. Vragen die minstens 15 van de 25 punten behaalden, werden als aanvaardbaar beschouwd; andere vragen moesten worden herzien of afgekeurd.

Welke chatbot presteerde het beste?

Alle drie systemen leverden overwegend degelijke vragen, maar één model stak er bovenuit. Over de deskundigenbeoordelingen heen scoorde deze chatbot het hoogst op nauwkeurigheid, klinische relevantie en geloofwaardige foute antwoorden. Elk van zijn 50 vragen haalde de acceptatiedrempel en geen enkele moest worden aangepast. De andere twee modellen presteerden nog steeds goed: meer dan negen van de tien vragen waren voldoende maar vergden kleine aanpassingen, vaak omdat een fout antwoord te opzichtig verkeerd was of een detail helderder kon. Over het geheel genomen waren de experts het erover eens dat alle drie hulpmiddelen snel toetsenmateriaal kunnen genereren dat zeer dicht bij gebruiksklaar is voor de lespraktijk.

Figure 2
Figuur 2.

Denkvaardigheden, niet alleen memoriseren

Het team onderzocht ook welk soort denkwerk deze AI-geschreven vragen van studenten vergden. Met behulp van de taxonomie van Bloom — een raamwerk dat docenten gebruiken om mentale vaardigheden te classificeren — verdeelden ze vragen in eenvoudige kennis en begrip versus hogere-orde vaardigheden zoals toepassen van feiten, analyseren van situaties en beoordelen van opties. Verrassend genoeg produceerden de chatbots vooral hogere-orde vragen. Bij één model vereisten meer dan 90% van de items dat studenten redeneerden door klinische scenario’s in plaats van alleen feiten te reproduceren. Basisvragen gericht op louter onthouden kwamen relatief weinig voor bij alle drie systemen. Dit patroon suggereert dat grote taalmodellen, getraind op enorme hoeveelheden samenhangende tekst, van nature neigen naar contextrijke, probleemoplossende scenario’s in plaats van simpele flitskaartachtige prompts.

Belofte, beperkingen en de noodzaak van menselijke partners

Ondanks deze sterke punten onthulde de studie belangrijke hiaten. Geen van de chatbots stelde spontaan afbeeldingsgebaseerde vragen voor, die cruciaal zijn bij bloedziekten waar artsen microscoopbeelden en laboratoriumgrafieken moeten interpreteren. Toen ze rechtstreeks om afbeeldingsvragen werden gevraagd, gaven twee systemen toe dat ze die niet konden leveren, en één produceerde een poging van lage kwaliteit. De studie steunde bovendien op deskundigenoordeel in plaats van echte examengegevens van studenten, dus ze kan niet volledig bewijzen hoe goed deze vragen zouden werken in echte toetsen. De auteurs benadrukken dat docenten nog steeds feiten moeten controleren, formuleringen moeten verfijnen en moeten zorgen dat belangrijke basisconcepten adequaat worden behandeld.

Wat dit betekent voor toekomstig medisch onderwijs

Voor de niet-specialist is de conclusie dat AI medische docenten niet vervangt, maar wel een krachtig hulpmiddel wordt. In deze studie genereerden chatbots snel overwegend nauwkeurige, klinisch realistische vragen die studenten helpen oefenen met besluitvorming bij bloedziekten. Eén model produceerde met name vragen van zo’n hoge kwaliteit dat experts ze met weinig of geen wijziging zouden gebruiken. Toch lieten de systemen eenvoudigere kenniscontroles weg en konden ze visueel materiaal niet zelfstandig behandelen. De auteurs concluderen dat de beste aanpak een partnerschap is: AI doet het zware werk van het opstellen van gevarieerde vragen, terwijl menselijke experts de prompts sturen, missende basiskennis invullen, de inhoud verifiëren en gelijke tred houden met veranderende medische richtlijnen.

Bronvermelding: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Trefwoorden: medisch onderwijs, kunstmatige intelligentie, hematologie, meerkeuzevragen, chatbots