Clear Sky Science · nl

Prestaties van DeepSeek bij het genereren van in‑training examenvragen in de opleiding radiologieartsen

2026-03-24 · Terug naar het overzicht

Waarom slimere toetsvragen ertoe doen

Artsen in opleiding binnen medische beeldvorming maken regelmatig toetsen om hun kennis en hun vermogen om voor patiënten te zorgen te controleren. Het opstellen van die toetsvragen kost veel tijd van experts, en opleidingsinstituten vragen zich af of hulpmiddelen met kunstmatige intelligentie kunnen bijspringen. Deze studie onderzocht of een groot taalmodel genaamd DeepSeek een deel van dat werk kan overnemen door meerkeuzevragen te schrijven voor radiologie‑aios, en waar menselijke experts nog duidelijk noodzakelijk zijn.

Figure 1. AI helpt docenten radiologie bij het maken van examenvragen, terwijl artsen in opleiding ze gebruiken om effectiever te leren.

Wat de onderzoekers wilden uitvinden

Het team in China richtte zich op een belangrijk onderdeel van radiologie‑opleiding: in‑training toetsen die de voortgang van aios jaarlijks volgen. Ze vergeleken twee overeenkomende sets examenvragen. De ene set was geschreven door ervaren radiologen volgens nationale opleidingsnormen. De andere set werd in het Chinees gegenereerd door het taalmodel DeepSeek met zorgvuldig opgestelde prompts die onderwerp, opleidingsniveau en type vraag specificeren. Alle vragen moesten aan dezelfde regels voldoen en werden door een senior radioloog gescreend om te verzekeren dat ze accuraat en eerlijk waren voordat ze werden gebruikt.

Hoe het examenexperiment werkte

Uit deze vraagbanken kozen de onderzoekers willekeurig 14 AI‑vragen en 14 expertvragen en mengden ze tot één online toets van 28 items. Veertig radiologieaios in hun tweede of derde jaar maakten deze gesloten boek toets. Voor elk item kozen ze een antwoord, gokten of de vraag van DeepSeek of een menselijke expert kwam, en beoordeelden het op moeilijkheidsgraad, aansluiting bij het curriculum, algehele kwaliteit en hoe realistisch het klinische verhaal aanvoelde. Dit ontwerp liet het team niet alleen scores vergelijken, maar ook hoe de vragen door lerenden werden ervaren.

Figure 2. Vergelijk AI‑ en door mensen geschreven vragen voor eenvoudige feiten versus complexe patiëntencasussen om te laten zien waar elk het beste werkt.

Waar AI gelijkwaardig is aan menselijke schrijvers

Over het hele examen behaalden aios ongeveer hetzelfde aandeel juiste antwoorden, ongeacht of de vragen door DeepSeek of door experts waren geschreven, en ze konden niet goed aangeven welke bron bij elk item hoorde. Voor het eenvoudigste vraaggtype, gericht op basisfeiten en duidelijke regels, presteerden DeepSeek’s items veelal zoals de door mensen geschreven vragen. Objectieve testmaatregelen, zoals hoe goed een vraag sterkere en zwakkere studenten onderscheidt, wezen ook uit dat deze basiskennisvragen van AI doorgaans solide waren. Dit betekent dat AI kan helpen bij het opbouwen van grote bankjes eenvoudige vragen die kernbegrippen versterken en zo de werklast voor docenten verkleinen.

Waar menselijk oordeel nog steeds de leiding heeft

Het beeld veranderde wanneer vragen rijkere patiëntverhalen en moeilijkere afwegingen bevatten. Voor vragen van medium complexiteit met korte klinische casussen beantwoordden aios AI‑ en expertvragen juist in vergelijkbare mate, maar ze beoordeelden de door experts gemaakte versies als realistischer en enigszins moeilijker, vooral onder meer ervaren aios die meer praktijkervaring hebben. Voor de meest complexe vragen, opgebouwd rond meertraps casuïstiek en beoordelingsvragen, scoorden aios duidelijk hoger op door experts geschreven items dan op DeepSeek‑versies. Trainees, in het bijzonder degenen in de vroege jaren, leken eerder te worden misleid of verward door de dunnere, minder authentieke klinische situaties die de AI creëerde.

Hoe mensen en AI kunnen samenwerken

De auteurs suggereren een gelaagde aanpak. DeepSeek en vergelijkbare tools zijn goed geschikt om grote aantallen basisvragen te schetsen die standaardfeiten en definities bestrijken. Menselijke experts moeten op hun beurt verantwoordelijk blijven voor vragen die toetsen hoe artsen omgaan met onzekerheid, opties afwegen en waarden toepassen in echte klinische situaties. AI kan ook helpen reviewers zwakkere vragen te laten opmerken, terwijl experts de genuanceerde inzichten leveren die alleen uit patiëntenzorg voortkomen. Met duidelijke grenzen en zorgvuldige supervisie kan het combineren van AI en deskundig oordeel het samenstellen van medische toetsen zowel efficiënter maken als beter in het meten van wat echt telt.

Bronvermelding: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Trefwoorden: radiologieonderwijs, examenvragen, kunstmatige intelligentie, grote taalmodellen, medische opleiding