Clear Sky Science · fr

Performance en zéro-coup de modèles linguistiques et multimodaux sélectionnés sur l’examen de résidence médicale brésilien 2023

· Retour à l’index

Pourquoi cela importe pour les médecins et les patients

L’intelligence artificielle progresse rapidement dans les hôpitaux et les cabinets, mais la plupart des évaluations de ces systèmes sont réalisées en anglais. Cette étude pose une question simple et à fort enjeu : dans quelle mesure les grands modèles d’IA actuels gèrent-ils de véritables questions d’examen médical rédigées en portugais brésilien, y compris celles qui utilisent des images telles que des radiographies ? La réponse aide les médecins, les enseignants et les décideurs à juger si ces outils sont prêts à assister les soins dans des pays où l’anglais n’est pas la langue principale.

Soumettre l’IA à un vrai concours d’entrée en médecine

Les chercheurs ont utilisé l’examen d’entrée en résidence médicale 2023 d’un des principaux hôpitaux universitaires du Brésil, un concours que des milliers de jeunes médecins passent chaque année. Il contient 117 questions à choix multiple couvrant la médecine interne, la chirurgie, la pédiatrie, la gynécologie-obstétrique et la santé publique. La plupart des questions sont uniquement textuelles, mais plus d’un tiers inclut des images telles que des clichés radiologiques, des photos cliniques et des tracés diagnostiques. Six modèles IA textuels et quatre modèles multimodaux capables d’analyser des images ont été mis au défi de répondre à l’examen en configuration « zéro‑coup » : ils n’ont reçu aucun exemple préalable ni ajustement spécifique au test, seulement des instructions standard pour choisir une réponse et expliquer leur raisonnement.

Figure 1
Figure 1.

Quelle était l’intelligence des modèles sur les questions textuelles ?

Sur les questions purement textuelles, les performances variaient fortement. Le système le plus faible n’obtenait qu’un peu plus d’une bonne réponse sur cinq, tandis que les meilleurs modèles répondaient correctement à environ sept questions sur dix. Une famille de modèles appelée Claude dominait le classement, avec des scores autour de 70 %, légèrement au‑dessus de GPT‑4.0 Turbo et nettement devant plusieurs concurrents open source et commerciaux. Un modèle open source comptant plusieurs milliards de paramètres s’est toutefois approché des leaders, suggérant que de bonnes performances ne sont pas nécessairement réservées aux systèmes propriétaires. Lorsque les chercheurs ont comparé ces scores d’IA à la distribution des notes des candidats humains, les meilleurs modèles se situaient près du centre du groupe de postulants : pas des étudiants d’exception, mais à peu près équivalents à un médecin débutant moyen passant l’examen.

Les images continuent de faire trébucher l’IA actuelle

La donne change lorsqu’on ajoute des images. Pour les quatre modèles multimodaux testés, l’exactitude a chuté une fois les questions basées sur des images incluses, tombant souvent en dessous de 50 % de bonnes réponses, notamment pour les items fortement axés sur la radiologie. Seul le modèle le plus avancé a conservé quasiment le même score sur les questions mixtes texte‑et‑image que sur le texte seul. Selon les domaines, les systèmes ont obtenu les meilleurs résultats en santé publique et en pédiatrie, et les pires en radiologie et pour d’autres questions centrées sur l’image, ce qui suggère que les données d’entraînement et la conception des modèles favorisent le matériel écrit aux dépens des images médicales. Les cliniciens impliqués dans l’étude n’ont pas estimé que les questions imageées étaient intrinsèquement plus difficiles pour les humains, mais les données disponibles ne permettaient pas une comparaison humaine directe, question par question ; il reste donc incertain dans quelle mesure l’écart de performance provient du raisonnement visuel de l’IA ou de la difficulté des questions.

Un coup d’œil dans les explications

Pour aller au‑delà d’un simple score juste/faux, l’équipe a demandé à trois médecins expérimentés d’examiner les explications produites par un modèle multimodal. Ils ont évalué si l’IA avait correctement interprété la question, si son raisonnement était cohérent avec la réponse choisie et si suivre ses conseils pourrait nuire à un patient. Pour les questions correctement répondues par le modèle, ses explications étaient généralement cohérentes et considérées comme sûres. Pour les questions ratées, en revanche, des raisonnements trompeurs ou inventés — souvent appelés hallucinations — étaient fréquents. Les médecins se sont parfois opposés sur les explications problématiques, reflétant les zones grises inhérentes au jugement médical, mais ils se sont davantage accordés lorsque la réponse de l’IA était clairement erronée et potentiellement dangereuse.

Ce que cela signifie pour l’IA dans les soins de tous les jours

Globalement, l’étude montre que les grands modèles d’IA d’aujourd’hui peuvent approcher la performance humaine moyenne à un examen médical exigeant rédigé en portugais brésilien, du moins pour les questions textuelles. Néanmoins, ils peinent encore face aux images médicales et peuvent produire des explications assurées mais erronées pouvant induire les cliniciens en erreur si elles sont utilisées sans esprit critique. Les résultats soulignent à la fois les promesses et les limites des systèmes actuels : ils pourraient devenir des assistants utiles dans les soins en langue portugaise, notamment pour la lecture et la synthèse de textes, mais ils ne sont pas prêts à remplacer des médecins formés ni à gérer des diagnostics multimodaux complexes sans supervision attentive et améliorations continues.

Citation: Truyts, C.A.M., Rabelo, A.G., Souza, G.M.d. et al. Zero-shot performance of selected large language and multimodal models on the 2023 Brazilian Portuguese medical residency exam. Sci Rep 16, 11756 (2026). https://doi.org/10.1038/s41598-026-42829-w

Mots-clés: IA médicale, grands modèles de langage, médecine portugaise, diagnostics multimodaux, enseignement médical