Clear Sky Science · fr

Performance comparative des grands modèles de langage récents et antérieurs et des résidents en pédiatrie sur des questions d’examen en formation pédiatrique

· Retour à l’index

Pourquoi c’est important pour les médecins et les familles

Alors que les outils d’intelligence artificielle commencent à apparaître dans les hôpitaux et les facultés de médecine, une question clé est simple : ces systèmes peuvent-ils vraiment égaler le jugement des médecins en formation, surtout lorsque la santé des enfants est en jeu ? Cette étude examine les performances de plusieurs modèles de langage IA de premier plan sur des questions d’examen pédiatrique et ce que cela pourrait signifier pour les soins et la formation futurs.

Tester l’IA sur de vraies questions d’examen

Les chercheurs ont rassemblé 498 questions provenant des examens en formation pédiatrique passés dans un grand hôpital pour enfants en Corée entre 2016 et 2023. Ces examens servent à mesurer la progression des résidents pendant leurs quatre années de formation. La plupart des questions étaient à choix multiple et couvraient un large éventail de spécialités, des soins néonatals et des infections aux maladies cardiaques et aux soins critiques. Environ une question sur cinq incluait des images médicales, comme des radiographies, des scanners ou des photographies cliniques, tandis que le reste reposait uniquement sur des descriptions écrites.

Figure 1. Des systèmes d’IA et des résidents en pédiatrie sont comparés sur des questions écrites qui évaluent les connaissances en santé des enfants.
Figure 1. Des systèmes d’IA et des résidents en pédiatrie sont comparés sur des questions écrites qui évaluent les connaissances en santé des enfants.

Comment l’étude a comparé personnes et machines

Six modèles de langage IA bien connus ont été testés, représentant trois familles majeures de systèmes et deux générations pour chaque famille : des versions antérieures et des versions plus récentes dotées de capacités visuelles. Les modèles ont reçu des livrets d’examen complets, et non des questions isolées, et devaient déterminer eux‑mêmes quelles parties constituaient le texte de la question, quelles étaient les options de réponse et quelles étaient les images. Les questions ont été rédigées à l’origine en coréen avec des termes médicaux en anglais, et des traductions soigneusement vérifiées ont été fournies. Les résidents et les IA ont été notés selon les mêmes règles, une réponse étant comptée comme correcte si elle correspondait à la solution officielle ou à un synonyme accepté. Pour évaluer la stabilité des systèmes, chaque jeu de test a été exécuté cinq fois et la consistance entre les exécutions a été calculée.

Performance de l’IA par rapport aux résidents en pédiatrie

Les performances ont été résumées par la proportion de questions répondues correctement. Comme prévu, les scores humains augmentaient avec le niveau de formation : les résidents de première année répondaient correctement à un peu plus de la moitié des questions, tandis que les résidents de quatrième année atteignaient environ 70 %. Les modèles d’IA les plus récents ont fait même mieux dans l’ensemble, obtenant environ 78 % sur l’ensemble des questions et dépassant nettement les résidents les plus avancés. Les versions antérieures des IA affichaient des performances comparables à celles des résidents seniors. Lorsque les chercheurs se sont concentrés uniquement sur les questions textuelles, les modèles récents ont devancé les résidents de quatrième année d’environ 10 points de pourcentage. Les systèmes d’IA étaient également très cohérents d’une exécution à l’autre, avec des scores presque identiques à chaque fois.

Figure 2. Les modèles d’IA traitent mieux les questions textuelles que celles basées sur des images lorsqu’ils répondent à des problèmes d’examen pédiatrique.
Figure 2. Les modèles d’IA traitent mieux les questions textuelles que celles basées sur des images lorsqu’ils répondent à des problèmes d’examen pédiatrique.

Où l’IA rencontre encore des difficultés avec les images

La donne a changé dès qu’il s’agissait d’images médicales. Sur les questions incluant des images, aucun des systèmes d’IA n’a surpassé les résidents seniors. Les modèles récents ont fait mieux que leurs prédécesseurs et ont atteint une précision autour de la mi‑70 % sur ces items visuels, mais leurs résultats restaient inférieurs à leurs bonnes performances sur les seules questions textuelles. Ce schéma s’est observé pour différents types d’images, y compris radiographies, scanners et photos cliniques, et sur un large éventail de sujets pédiatriques. Les résultats rejoignent d’autres travaux suggérant que, si les modèles de langage excellent à lire et raisonner sur du texte, leur capacité à comprendre les images médicales, surtout chez l’enfant, demeure limitée.

Ce que cela signifie pour les soins et la formation

Les auteurs estiment que ces résultats sont encourageants pour la formation mais prudents pour l’usage clinique direct. Des scores élevés et stables sur des questions écrites suggèrent que ces systèmes pourraient servir de partenaires d’étude utiles, offrant aux stagiaires en pédiatrie des questions d’entraînement rapides et des explications. Toutefois, réussir des tests à choix multiple ne garantit pas une performance sûre auprès de vrais patients, où l’information est plus désordonnée, les décisions plus complexes et l’interprétation d’images critique. En résumé, les outils d’IA multimodaux d’aujourd’hui peuvent déjà rivaliser avec des résidents seniors sur des examens écrits en pédiatrie, mais ils restent en retrait sur les tâches riches en images et ne sont pas encore prêts à remplacer le jugement humain en clinique.

Citation: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Mots-clés: pédiatrie, grands modèles de langage, examens médicaux, assistance à la décision clinique, formation médicale