Clear Sky Science · fr
Un benchmark à grande échelle pour évaluer les grands modèles de langage sur la réponse aux questions médicales en roumain
Pourquoi cela compte pour la santé et la technologie
Beaucoup de personnes se tournent aujourd’hui vers des outils en ligne et des chatbots pour obtenir des informations de santé, mais la plupart de ces systèmes fonctionnent mieux en anglais et peinent avec des dossiers médicaux locaux. Cet article comble cette lacune pour la Roumanie, où les médecins rédigent des résumés de cas longs et complexes en roumain et ont besoin d’aides numériques fiables pour répondre rapidement à des questions sur des patients atteints de cancer. Les auteurs présentent MedQARo, une nouvelle ressource qui permet aux chercheurs de tester sérieusement et d’améliorer les grands modèles de langage afin qu’ils comprennent mieux de vrais notes cliniques en roumain.
Une nouvelle banque de questions construite à partir de patients réels
Le cœur de l’étude est MedQARo, une très grande collection de 105 880 paires question–réponse liées à 1 242 patients atteints de cancer. Plutôt que de traduire des données anglaises, l’équipe est partie de zéro avec des résumés de cas originaux en roumain, principalement pour les cancers du sein et du poumon, ainsi que plusieurs autres types de tumeurs. Sept spécialistes et internes en oncologie ont passé près de 3 000 heures à lire ces documents et à rédiger des réponses à des questions médicales soigneusement conçues. Certaines questions sont oui/non, d’autres extraient des détails spécifiques, et certaines exigent de combiner des indices pour inférer des stades ou des calendriers de traitement. Toutes les données patient ont été entièrement anonymisées et approuvées par des comités d’éthique.

Évaluer l’IA sur un langage médical local
À l’aide de MedQARo, les auteurs ont évalué plusieurs familles de grands modèles de langage, y compris deux adaptés au roumain de manière générale, un conçu pour traiter des textes très longs, et un entraîné sur du matériel médical en anglais. Ils les ont également comparés à deux modèles commerciaux puissants accessibles via des API payantes. Chaque modèle devait lire la question et un extrait du résumé clinique, puis générer la réponse. Les chercheurs ont mesuré non seulement les correspondances exactes, mais aussi la fréquence à laquelle les modèles capturaient les mots‑clés et leur capacité à gérer la flexibilité du phrasé roumain, en utilisant quatre mesures d’évaluation différentes.
Les modèles affûtés surpassent les géants « prêts à l’emploi »
Globalement, les modèles utilisés « prêts à l’emploi » ont obtenu de faibles performances sur MedQARo, même lorsqu’ils étaient puissants en anglais ou avaient une certaine exposition au roumain. Des baselines simples qui donnaient toujours la réponse la plus fréquente faisaient parfois presque aussi bien que ces systèmes zéro‑tir. Une fois les modèles affinés (fine‑tuning) sur le nouveau jeu de données, les performances ont toutefois bondi de manière spectaculaire. Le meilleur système, un modèle adapté au roumain appelé RoMistral‑7B, a atteint un score F1 d’environ 0,67 sur des types de cancer et des hôpitaux familiers, devançant nettement tous les autres modèles open‑source et commerciaux. Pourtant, même ce leader a répondu incorrectement à plus d’un tiers des questions, montrant la difficulté du benchmark.

Tester la généralisation entre cliniques et types de cancer
Pour vérifier si ces systèmes pouvaient faire face à de nouvelles situations, l’équipe a construit un jeu de test plus difficile provenant d’un autre centre médical et de types de cancer non vus lors de l’entraînement. Dans ce scénario inter‑domaines, les performances de chaque modèle ont chuté, souvent fortement, le meilleur modèle affiné répondant correctement bien en dessous de la moitié des cas. Les modèles entraînés sur des textes biomédicaux en anglais ne se sont pas automatiquement transférés aux notes en roumain, et le fait de fournir aux modèles une portion beaucoup plus longue du document clinique n’a pas beaucoup aidé non plus. En fait, se concentrer sur la première partie du résumé fonctionnait souvent mieux que d’ingérer l’intégralité du long dossier, ce qui suggère qu’un contexte trop large peut confondre plutôt que clarifier.
Ce que cela implique pour l’IA clinique future
Pour un lecteur non spécialiste, la conclusion est que construire une IA médicale sûre et utile dans des langues comme le roumain exige plus que de brancher des données locales dans un chatbot centré sur l’anglais. Des benchmarks soigneusement conçus et spécifiques à la langue, comme MedQARo, révèlent à la fois le potentiel et les limites des systèmes actuels. Ils montrent que de petits modèles open‑source, une fois affinés sur des données locales de haute qualité, peuvent surpasser des modèles généraux beaucoup plus grands hébergés dans le cloud. En même temps, les scores modestes, en particulier sur de nouveaux hôpitaux et types de cancer, avertissent que les outils d’aujourd’hui ne sont pas prêts à remplacer le jugement humain. MedQARo offre plutôt une base solide pour la prochaine génération d’assistants cliniques capables d’aider les médecins roumains à naviguer dans des dossiers cancéreux complexes tout en gardant la sécurité et la confidentialité des patients au centre.
Citation: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0
Mots-clés: réponse aux questions médicales, IA en langue roumaine, dossiers cliniques du cancer, grands modèles de langage, benchmark MedQARo