Clear Sky Science · nl

Effect van AI-misinformatie op diagnostische nauwkeurigheid en kalibratie van vertrouwen bij beginnende geneeskundestudenten

· Terug naar het overzicht

Waarom slimme machines beginners toch kunnen misleiden

Kunstmatige intelligentie dringt snel door in klaslokalen en klinieken en belooft sneller leren en slimmere beslissingen. Maar wat gebeurt er als studenten op AI leunen om complexe medische problemen te begrijpen en de verklaring aannemelijk klinkt maar onjuist is? Deze studie onderzoekt dat reële dilemma bij beginnende geneeskundestudenten en vindt een verontrustend antwoord: misleidende AI-verklaringen kunnen actief het leren schaden, terwijl volkomen juiste verklaringen vaak veel minder helpen dan je zou verwachten.

Figure 1
Figuur 1.

Drie soorten AI-hulp getest

Onderzoekers in China voerden een gerandomiseerde proef uit met 111 beginnende geneeskundestudenten die basiswetenschappelijke training hadden maar weinig klinische ervaring. Alle studenten beantwoordden 25 uitdagende, examenachtige meerkeuzevragen die echte toelatingsexamens nabootsten. De ene groep zag alleen de vragen. Een tweede groep kreeg zorgvuldig gecontroleerde, door experts goedgekeurde AI-verklaringen die naar het juiste antwoord wezen. Een derde groep kreeg AI-achtige verklaringen die gepolijst en aannemelijk waren maar opzettelijk een specifiek foutief alternatief ondersteunden. Na elke vraag kozen studenten een antwoord en gaven aan hoe zeker ze zich voelden.

Wanneer verkeerde aanwijzingen slechter zijn dan geen hulp

De resultaten toonden een scherpe scheefheid tussen voordeel en schade. Studenten die de misleidende verklaringen kregen scoorden veel slechter dan degenen zonder verklaringen: hun nauwkeurigheid daalde van ongeveer één op de vijf vragen goed naar minder dan één op de tien. Daarentegen deden studenten die de correcte AI-verklaringen zagen slechts iets beter dan de controlegroep, en dat verschil was niet statistisch betrouwbaar. Met andere woorden, gepolijste maar foutieve sturing duwde studenten beslissend de verkeerde kant op, terwijl gepolijste en correcte sturing hun prestaties niet consequent boven het niveau van zelfstandig werken tilde.

Figure 2
Figuur 2.

Zelfverzekerde fouten en de “aannemelijkheidsval”

Het beeld werd nog zorgwekkender toen de onderzoekers naar vertrouwen keken. Elke AI-verklaring—juist of fout—maakte studenten zelfverzekerder dan degenen die zonder hulp werkten. Alleen de groep met correcte verklaringen toonde echter gezonde “kalibratie”, waarbij vertrouwen hoger was bij juiste antwoorden dan bij onjuiste. In de misleidende groep bleef het vertrouwen hoog, ongeacht of studenten juist of onjuist waren, wat betekent dat ze hun eigen gevoel van zekerheid niet konden gebruiken om goed redeneren van slecht te onderscheiden. Gedetailleerde analyses lieten zien dat de misleidende verklaringen studenten vaak naar een specifiek onjuist antwoord leidden: in de misleidende groep was meer dan 70% van de foutieve antwoorden precies die optie die de AI subtiel had goedgekeurd. Sommige verklaringen werkten als “halve waarheden”, gebruikmakend van correcte details om een foutieve conclusie te ondersteunen die beginners moeilijk konden weerleggen.

Waarom dit belangrijk is voor medische opleiding

Deze bevindingen sluiten aan bij zorgen over “automatiseringsbias”, waarbij mensen te veel op computeruitvoer vertrouwen in plaats van informatie zorgvuldig te controleren. In een kennisintensief veld als de geneeskunde is het gevaar niet alleen een fout antwoord—het is een fout antwoord dat volledig gerechtvaardigd lijkt. De studie suggereert dat het simpelweg integreren van conversatie-AI als vriendelijke tutor in de studiepraktijk riskant is, vooral wanneer leerlingen te onervaren zijn om subtiele gebreken te herkennen. De auteurs pleiten ervoor dat medische universiteiten AI minder moeten behandelen als een alwetende leraar en meer als materiaal voor gestructureerde “AI-audit” oefeningen. In die oefeningen zouden studenten moeten oefenen met het ontleden van AI-verklaringen, het verifiëren van beweringen aan de hand van betrouwbare bronnen, en het leren herkennen van het verschil tussen vlotte redenering en werkelijk solide redenering.

Wat dit betekent voor toekomstige artsen en hun hulpmiddelen

In eenvoudige bewoordingen is de conclusie van de studie scherp: voor beginnende geneeskundestudenten doen verkeerde AI-verklaringen meer schade dan goede AI-verklaringen goed doen. Misleidende sturing verlaagt niet alleen hun kans op het juiste antwoord, maar laat hen ook ten onrechte zeker achter van hun fouten. Om toekomstige patiënten te beschermen zullen opvoeders en AI-ontwerpers systemen en curricula moeten bouwen die studenten vertragen, veelvoorkomende AI-faalpatronen blootleggen en kritisch controleren aanmoedigen in plaats van blind vertrouwen. Het doel is niet AI te verwerpen, maar de volgende generatie artsen te trainen om het doordacht te bevragen, zodat slimme hulpmiddelen partners in veilige zorg worden en geen bronnen van aannemelijke misinformatie.

Bronvermelding: Teng, D., Tan, L., Cao, Q. et al. Impact of AI misinformation on diagnostic accuracy and confidence calibration in novice medical students. npj Digit. Med. 9, 356 (2026). https://doi.org/10.1038/s41746-026-02547-z

Trefwoorden: AI in medische opleiding, misinformatie, diagnostisch redeneren, studentvertrouwen, automatiseringsbias