Clear Sky Science · it
Performance comparativa dei recenti e precedenti grandi modelli linguistici e dei medici in formazione pediatrica su domande d’esame pediatrico
Perché questo conta per medici e famiglie
Con l’ingresso degli strumenti di intelligenza artificiale negli ospedali e nelle scuole di medicina, una domanda chiave è semplice: questi sistemi possono davvero eguagliare il giudizio dei medici in formazione, soprattutto quando è in gioco la salute dei bambini? Questo studio analizza come diversi modelli linguistici di punta si comportano su domande d’esame pediatriche e cosa ciò potrebbe significare per la futura assistenza e formazione.
Testare l’IA su domande d’esame reali
I ricercatori hanno raccolto 498 domande tratte dagli esami di formazione pediatrica sostenuti in un grande ospedale pediatrico in Corea tra il 2016 e il 2023. Questi esami sono utilizzati per valutare i progressi dei specializzandi durante i quattro anni di formazione. La maggior parte delle domande era a scelta multipla e copriva un’ampia gamma di specialità, dalla cura del neonato e le infezioni alle cardiopatie e la terapia intensiva. Circa una domanda su cinque includeva immagini mediche, come radiografie, scansioni o fotografie cliniche, mentre il resto si basava esclusivamente su descrizioni testuali.

Come lo studio ha confrontato persone e macchine
Sono stati testati sei noti modelli linguistici di IA, rappresentanti tre famiglie principali di sistemi e due generazioni per ciascuna famiglia: versioni precedenti e versioni più recenti con capacità visive. I modelli hanno ricevuto interi fascicoli d’esame, non singole domande, e hanno dovuto identificare da soli quale fosse il testo della domanda, quali fossero le opzioni di risposta e quali fossero le immagini. Le domande erano originariamente scritte in coreano con termini medici in inglese, e sono state fornite traduzioni accuratamente verificate. Sia i residenti sia le IA sono stati valutati con le stesse regole, considerando una risposta corretta se corrispondeva alla soluzione ufficiale o a un sinonimo accettato. Per valutare la stabilità dei sistemi, ogni set di test è stato eseguito cinque volte e si è calcolata la consistenza tra le esecuzioni.
Quanto ha fatto l’IA rispetto ai medici in formazione pediatrica
Le prestazioni sono state riassunte come proporzione di domande risposte correttamente. Come previsto, i punteggi umani crescevano con il livello di formazione: i residenti del primo anno rispondevano correttamente a poco più della metà delle domande, mentre i residenti del quarto anno raggiungevano circa il 70 percento. I modelli di IA più recenti hanno fatto ancora meglio nel complesso, totalizzando circa il 78 percento su tutte le domande e superando chiaramente i residenti più anziani. Le versioni precedenti dei modelli IA si sono comportate in linea con i residenti senior. Focalizzandosi solo sulle domande basate sul testo, i modelli recenti hanno superato i residenti del quarto anno di circa 10 punti percentuali. I sistemi di IA sono risultati anche molto consistenti tra le esecuzioni, con punteggi quasi identici ogni volta.

Dove l’IA fatica ancora con le immagini
Lo scenario è cambiato quando sono state coinvolte immagini mediche. Sulle domande che includevano immagini, nessuno dei sistemi di IA ha superato i residenti senior. I modelli più recenti hanno fatto meglio dei predecessori e hanno raggiunto un’accuratezza intorno alla metà del 70 percento su questi elementi visivi, ma i loro risultati restano inferiori rispetto alle solide prestazioni ottenute sulle domande solo testuali. Questo schema si è mantenuto attraverso diversi tipi di immagini, incluse radiografie, scansioni e foto cliniche, e coprendo un’ampia gamma di argomenti pediatrici. I risultati confermano altre ricerche che suggeriscono come, sebbene i modelli linguistici siano forti nella lettura e nel ragionamento sul testo, la loro capacità di comprendere immagini mediche, in particolare nei bambini, resti limitata.
Cosa significa per l’assistenza e la formazione
Gli autori sostengono che questi risultati sono incoraggianti per la formazione ma cautelativi per l’uso clinico diretto. Punteggi alti e stabili sulle domande d’esame scritte suggeriscono che tali sistemi potrebbero fungere da utili compagni di studio, offrendo ai tirocinanti pediatrici domande di esercitazione e spiegazioni rapide. Tuttavia, il successo nei test a scelta multipla non garantisce prestazioni sicure con pazienti reali, dove le informazioni sono più caotiche, le decisioni più complesse e l’interpretazione delle immagini è critica. In breve, gli strumenti di IA multimodale odierni possono già concorrere con i residenti senior negli esami scritti di pediatria, ma rimangono indietro nei compiti ricchi di immagini e non sono ancora pronti a sostituire il giudizio umano in clinica.
Citazione: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7
Parole chiave: pediatria, grandi modelli linguistici, esami medici, supporto alle decisioni cliniche, educazione medica