Clear Sky Science · fr

Évaluation de l’accord entre grands modèles de langage et conclusions publiées d’essais cliniques sur quatre plateformes d’intelligence artificielle

· Retour à l’index

Pourquoi c’est important pour les soins quotidiens

Les médecins s’appuient sur de larges essais cliniques pour décider quels traitements sont sûrs et efficaces. Parallèlement, de nouveaux outils d’intelligence artificielle s’améliorent pour lire et résumer la recherche médicale. Cette étude pose une question simple mais importante pour les patients et les cliniciens : lorsque ces outils lisent les mêmes essais que des experts humains, arrivent‑ils aux mêmes conclusions finales sur ce qui fonctionne ou non ?

Comment les chercheurs ont testé les outils d’IA

L’équipe s’est concentrée sur 20 essais cliniques bien connus publiés dans le New England Journal of Medicine, couvrant les maladies cardiaques, les AVC, le diabète, le cancer et la neurochirurgie. Ces essais ont été choisis parce qu’ils étaient soigneusement conçus et clairement rapportés, ce qui en fait un terrain d’essai solide. Plutôt que de fournir les articles complets aux systèmes d’IA, les chercheurs ont présenté uniquement les tableaux et figures contenant les chiffres, comme les taux d’événements et les graphiques de résultats. Cela a obligé les outils à s’appuyer sur les données elles‑mêmes plutôt que de se contenter de recopier les résumés écrits par les auteurs.

Figure 1. Comment différents outils d’IA lisent les mêmes essais médicaux et s’alignent sur les conclusions des médecins.
Figure 1. Comment différents outils d’IA lisent les mêmes essais médicaux et s’alignent sur les conclusions des médecins.

Ce qu’on a demandé aux systèmes d’IA

Quatre grands modèles de langage largement utilisés ont été testés : ChatGPT, Gemini, Grok3 et Claude. Chaque modèle a reçu la même consigne standardisée, lui demandant d’interpréter les données selon cinq axes. Les modèles devaient expliquer les résultats globaux, interpréter les statistiques, relier les résultats aux soins aux patients, souligner les limites de l’étude et suggérer comment les conclusions pourraient être appliquées en pratique. Deux analystes formés ont ensuite comparé chaque réponse d’IA à l’article original et noté la performance dans chacun de ces cinq domaines sur une échelle de zéro à cinq.

Dans quelle mesure l’IA correspondait aux conclusions humaines

ChatGPT a montré le meilleur accord avec les conclusions publiées des essais, obtenant un score médian parfait de 25 sur 25 pour les 20 essais. Gemini suit avec 21 sur 25, tandis que Grok3 et Claude obtiennent des scores médians de 18 et 17. Les quatre outils ont mieux réussi à décrire pourquoi les résultats importent pour les patients, et ChatGPT s’est distingué en arrivant en tête dans chaque domaine. Gemini a également bien identifié les faiblesses de l’étude et les facteurs de confusion potentiels, alors que Grok3 et Claude se sont révélés moins fiables pour reconnaître les limites et proposer des recommandations pratiques de traitement. Les deux évaluateurs humains étaient en fort accord entre eux, ce qui suggère que la méthode de notation elle‑même était stable.

Figure 2. Vue étape par étape de la façon dont l’IA transforme les chiffres d’essais en jugements sur les traitements et leurs limites.
Figure 2. Vue étape par étape de la façon dont l’IA transforme les chiffres d’essais en jugements sur les traitements et leurs limites.

Prudence sur les données d’entraînement cachées et la sécurité en pratique

Même si les chiffres paraissent impressionnants, les auteurs avertissent que les résultats doivent être interprétés avec prudence. Les essais utilisés sont célèbres et ont probablement figuré dans les données d’entraînement de ces systèmes d’IA. Cela signifie que les outils peuvent déjà « connaître » ces études et rappeler des schémas vus précédemment plutôt que de raisonner de manière indépendante à partir des tableaux fournis. L’absence d’aveuglement quant à l’origine des réponses laisse aussi place à des biais humains subtils dans la notation. De plus, les essais choisis présentaient majoritairement des résultats clairs et positifs, ce qui représente un scénario optimal plutôt que la recherche souvent brouillée et incertaine qui oriente les décisions réelles.

Ce que cela signifie pour les soins futurs

Pour un non‑spécialiste, la conclusion est que certains outils d’IA, en particulier ChatGPT et Gemini, peuvent souvent lire des données d’essais médicaux et être d’accord avec les conclusions d’experts, du moins pour des études bien connues et de haute qualité. Cela suggère qu’ils peuvent être des assistants utiles pour résumer des recherches complexes et organiser les preuves, mais ils ne sont pas prêts à remplacer les médecins ou les chercheurs. Leur historique d’entraînement est opaque, leurs performances varient selon les plateformes, et leurs réponses n’ont pas été démontrées sûres pour prendre des décisions de traitement directes. Les auteurs soutiennent que l’IA doit être considérée comme un assistant puissant capable de trier des chiffres et de faire ressortir des motifs, tandis que les cliniciens humains restent responsables du jugement, de l’empathie et des décisions finales concernant les soins aux patients.

Citation: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Mots-clés: grands modèles de langage, essais cliniques, IA médicale, synthèse des preuves, aide à la décision clinique