Clear Sky Science · it

Prestazioni di DeepSeek nella generazione di domande d’esame in corso di formazione per la didattica dei residenti di radiologia

2026-03-24 · Torna all'indice

Perché domande d’esame migliori sono importanti

I medici dell’imaging in formazione sostengono frequenti verifiche per controllare ciò che sanno e quanto sono in grado di prendersi cura dei pazienti. Redigere queste domande d’esame richiede molto tempo di esperti, e le scuole si chiedono se gli strumenti di intelligenza artificiale possano aiutare. Questo studio ha esaminato se un grande modello linguistico chiamato DeepSeek potesse condividere parte di questo lavoro scrivendo domande a scelta multipla per i residenti di radiologia e dove siano invece chiaramente necessari esperti umani.

Figure 1. L’intelligenza artificiale aiuta gli insegnanti di radiologia a creare domande d’esame mentre i medici in formazione le usano per apprendere in modo più efficace.

Cosa volevano scoprire i ricercatori

Il team in Cina si è concentrato su una parte chiave della formazione in radiologia: gli esami in corso che tracciano i progressi dei residenti ogni anno. Hanno confrontato due serie corrispondenti di domande d’esame. Una serie è stata redatta da radiologi esperti seguendo gli standard nazionali di formazione. L’altra è stata generata in cinese dal modello linguistico DeepSeek usando prompt accuratamente progettati che specificavano l’argomento, il livello del tirocinante e il tipo di domanda. Tutte le domande dovevano rispettare le stesse regole e sono state sottoposte a uno screening da parte di un radiologo senior per garantirne l’accuratezza e l’equità prima dell’uso.

Come ha funzionato l’esperimento d’esame

Dai banchi di domande, i ricercatori hanno scelto casualmente 14 domande dell’AI e 14 domande degli esperti e le hanno mescolate in un unico test online di 28 voci. Quaranta residenti di radiologia al secondo o terzo anno hanno sostenuto questo esame a libro chiuso. Per ogni item hanno scelto una risposta, indovinato se la domanda provenisse da DeepSeek o da un esperto umano e l’hanno valutata in termini di difficoltà, aderenza al curriculum, qualità complessiva e quanto la storia clinica apparisse realistica. Questo disegno ha permesso al team di confrontare non solo i punteggi ma anche la percezione delle domande da parte degli apprendenti.

Figure 2. Confrontare domande scritte da AI e da umani per fatti semplici rispetto a casi clinici complessi per mostrare dove ciascuno funziona meglio.

Dove l’AI eguaglia gli autori umani

Su tutto l’esame, i residenti hanno risposto correttamente a una proporzione simile di domande siano esse scritte da DeepSeek o dagli esperti, e non sono stati molto bravi a distinguere la fonte di ciascun item. Per il tipo di domanda più semplice, rivolto a fatti di base e regole chiare, le voci di DeepSeek si sono comportate in modo molto simile a quelle scritte da umani. Misure oggettive usate nei test, come quanto bene una domanda distingue studenti più forti da quelli più deboli, hanno suggerito che questi item di conoscenza di base generati dall’AI sono generalmente solidi. Ciò significa che l’AI potrebbe aiutare a costruire grandi banche di domande lineari che rinforzano i concetti fondamentali, alleggerendo il carico di lavoro degli educatori.

Dove il giudizio umano è ancora determinante

Il quadro cambia quando le domande coinvolgono storie cliniche più ricche e decisioni più difficili. Per domande di complessità media con brevi scene cliniche, i residenti hanno risposto correttamente a tassi simili per le domande AI e quelle degli esperti, ma hanno valutato le versioni degli esperti come più realistiche e in qualche misura più difficili, specialmente tra i residenti più senior con maggiore esperienza clinica reale. Per le domande più complesse costruite attorno a serie di casi in più passaggi e a giudizi clinici, i residenti hanno ottenuto punteggi chiaramente più alti sugli item redatti dagli esperti rispetto alle versioni di DeepSeek. I tirocinanti, in particolare quelli agli anni iniziali, sembravano più facilmente fuorviati o confusi da situazioni cliniche più sottili e meno autentiche create dall’AI.

Come persone e AI possono collaborare

Gli autori suggeriscono un approccio a più livelli. DeepSeek e strumenti simili sono adatti a redigere grandi quantità di domande di base e ben strutturate che coprono fatti standard e definizioni. Gli esperti umani, a loro volta, dovrebbero rimanere responsabili delle domande che testano come i medici ragionano nell’incertezza, ponderano le opzioni e applicano valori in contesti clinici reali. L’AI può anche aiutare i revisori a individuare domande più deboli, mentre gli esperti forniscono la comprensione sfumata che deriva solo dalla cura dei pazienti. Con confini chiari e supervisione attenta, combinare l’AI con il giudizio esperto potrebbe rendere gli esami medici sia più efficienti da costruire sia migliori nel misurare ciò che conta davvero.

Citazione: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Parole chiave: formazione in radiologia, domande d’esame, intelligenza artificiale, modelli linguistici di grandi dimensioni, formazione medica