Clear Sky Science · sv
DeepSeeks prestanda vid framställning av provfrågor för läkarspecialister i radiologi under utbildningen
Varför bättre provfrågor spelar roll
Läkare som tränar inom medicinsk bilddiagnostik gör frekventa prov för att kontrollera vad de kan och hur väl de kan ta hand om patienter. Att skriva dessa provfrågor kräver mycket experttid, och utbildningsinstitutioner undrar om verktyg med artificiell intelligens kan hjälpa. Den här studien undersökte om en stor språkmodell kallad DeepSeek kunde dela en del av det arbetet genom att skriva flervalsfrågor för radiologiresidenters in‑training‑prov, och var mänskliga experter fortfarande tydligt nödvändiga.

Vad forskarna ville ta reda på
Teamet i Kina fokuserade på en central del av radiologiutbildningen: in‑training‑prov som följer residenternas framsteg varje år. De jämförde två matchande uppsättningar provfrågor. Den ena uppsättningen skrevs av erfarna radiologer enligt nationella utbildningsstandarder. Den andra uppsättningen genererades på kinesiska av språkmodellen DeepSeek med noggrant utformade prompts som specificerade ämne, trainee‑nivå och frågetyp. Alla frågor måste följa samma regler och granskades av en senior radiolog för att säkerställa att de var korrekta och rättvisa innan de användes.
Hur provexperimentet genomfördes
Från dessa frågebanker valde forskarna slumpmässigt 14 AI‑frågor och 14 expertfrågor och blandade dem till ett 28‑frågers onlineprov. Fyrtio radiologiresidenten i andra eller tredje året skrev detta skriftliga prov utan hjälpmedel. För varje fråga valde de ett svar, gissade om frågan kom från DeepSeek eller en mänsklig expert, och bedömde den i termer av svårighet, överensstämmelse med läroplanen, övergripande kvalitet och hur realistisk den kliniska berättelsen kändes. Denna design gjorde det möjligt för teamet att jämföra inte bara poäng utan också hur frågorna upplevdes av de studerande.

Var AI matchar mänskliga författare
Över hela provet fick residentena ungefär samma andel rätt oavsett om frågorna skrevs av DeepSeek eller av experter, och de var inte särskilt bra på att avgöra vilken källa varje fråga kom från. För den enklaste frågetypen, inriktad på grundläggande fakta och klara regler, presterade DeepSeeks frågor mycket likt de mänskligt skrivna. Objektiva testmått, såsom hur väl en fråga skiljer mellan starkare och svagare deltagare, antydde också att dessa AI‑genererade grundkunskapsfrågor generellt var robusta. Det betyder att AI kan hjälpa till att bygga stora banker av raka frågor som förstärker kärnkoncept och avlastar utbildare.
Var mänskligt omdöme fortfarande leder
Bilden förändrades när frågorna involverade rikare patientberättelser och svårare bedömningar. För medelkomplexa frågor med korta kliniska scener svarade residenterna rätt på AI‑ och expertfrågor i liknande takt, men de bedömde expertversionerna som mer realistiska och något svårare, särskilt bland mer seniora residenter med mer verklig erfarenhet. För de mest komplexa frågorna, byggda kring flerstegsfall och bedömningar, fick residenterna tydligt högre poäng på de expert‑skrivna uppgifterna än på DeepSeeks versioner. Trainees, särskilt de i tidigare år, verkade enklare vilseledas eller förvirras av de tunnare, mindre autentiska kliniska situationerna som AI skapade.
Hur människor och AI kan arbeta tillsammans
Författarna föreslår en nivåindelad strategi. DeepSeek och liknande verktyg lämpar sig väl för att utarbeta stora mängder grundläggande, välstrukturerade frågor som täcker standardfakta och definitioner. Mänskliga experter bör i sin tur behålla ansvaret för frågor som testar hur läkare resonerar kring osäkerhet, väger alternativ och tillämpar värderingar i verkliga kliniska situationer. AI kan också hjälpa granskare att upptäcka svagare frågor, medan experter tillför den nyanserade förståelse som bara kommer från patientvård. Med tydliga gränser och noggrann tillsyn kan en kombination av AI och expertomdöme göra medicinska prov både enklare att skapa och bättre på att mäta det som verkligen betyder något.
Citering: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
Nyckelord: radiologiutbildning, provfrågor, artificiell intelligens, stora språkmodeller, medicinsk utbildning