Clear Sky Science · fr

Exploiter le traitement du langage naturel et l’apprentissage automatique pour identifier les maladies chroniques à partir des dossiers médicaux électroniques en soins primaires

2026-02-12 · Retour à l’index

Pourquoi les notes de votre médecin comptent plus que vous ne le pensez

Lorsque vous consultez votre médecin de famille, chaque toux, plainte et inquiétude est consignée dans votre dossier médical électronique. Une grande partie de ces détails se trouve dans des notes en langage libre plutôt que dans des cases préremplies. Cette étude montre que ces notes narratives, combinées aux techniques informatiques modernes, peuvent aider les médecins à repérer des maladies chroniques comme l’arthrite, les maladies rénales, le diabète, l’hypertension et les troubles respiratoires avec plus de précision — en particulier lorsque ces problèmes ne sont pas clairement codés ailleurs dans le dossier.

Des indices cachés dans les dossiers de consultation courants

Les dossiers médicaux électroniques en soins primaires contiennent deux types d’information très différents. Il y a des éléments structurés, tels que les codes de facturation, les listes de médicaments et les résultats de laboratoire, et il y a des notes non structurées, où les cliniciens décrivent symptômes, antécédents et raisonnement en langage courant. Au Canada, les codes de facturation sont souvent incomplets et utilisés principalement pour le paiement plutôt que pour un diagnostic précis, de sorte que de nombreux problèmes de santé apparaissent plus clairement dans les notes que dans les cases à cocher. Les chercheurs ont voulu savoir si l’exploitation conjointe des deux types d’information permettrait d’identifier plus efficacement cinq maladies chroniques courantes chez des patients âgés de 60 ans et plus fréquentant une clinique de médecine familiale en Alberta.

Apprendre aux ordinateurs à lire le langage des médecins

Pour exploiter le texte riche mais désordonné des notes cliniques, l’équipe a utilisé le traitement du langage naturel, un ensemble d’outils qui aide les ordinateurs à travailler avec le langage humain. Ils ont nettoyé les notes en supprimant les symboles parasites, en standardisant les mots, en développant les abréviations et en réduisant les mots apparentés à leurs racines communes. Ils ont aussi établi des règles simples pour reconnaître quand une note indiquait qu’un patient n’avait pas une condition — par exemple des expressions comme « pas d’éléments en faveur de » ou « a été écarté » — afin que l’ordinateur ne prenne pas ces mentions pour des cas positifs. Des cliniciens de l’équipe ont dressé des listes de termes et d’expressions pertinents pour chaque affection, aidant les algorithmes à se concentrer sur les idées médicales importantes plutôt que sur chaque mot isolé.

Repérer des thèmes et apprendre des schémas

Puis les chercheurs ont quantifié le texte afin de pouvoir l’alimenter dans des modèles d’apprentissage automatique. Ils ont compté la fréquence d’apparition de chaque mot ou paire de mots dans les notes de chaque patient, mais ils ont aussi réévalué à la baisse les mots très fréquents et mis en évidence ceux qui étaient particulièrement distinctifs pour une condition donnée. À l’aide d’une méthode appelée modélisation de sujets (topic modeling), ils ont vérifié que les groupes de mots les plus fréquents correspondaient bien aux pathologies étudiées — par exemple des termes associés au diabète ou à l’hypertension. Cette étape a servi de contrôle de réalité, confirmant que les thèmes identifiés par la machine correspondaient aux connaissances cliniques avant de construire les modèles prédictifs.

Laisser les algorithmes signaler les personnes probablement malades

Le cœur de l’étude consistait à entraîner trois types de modèles d’apprentissage automatique pour décider si chaque patient avait vraisemblablement chacune des cinq maladies chroniques. Un modèle fonctionnait comme un calculateur de risque affiné, un autre traçait une frontière entre les cas sains et malades, et un troisième ressemblait à un réseau simple inspiré du cerveau. Les chercheurs ont d’abord entraîné ces modèles en n’utilisant que les parties structurées du dossier, puis les ont réentraînés en utilisant à la fois les données structurées et les caractéristiques textuelles traitées extraites des notes. Ils ont également pris en compte le fait que certaines maladies étaient moins fréquentes dans l’échantillon en rééquilibrant soigneusement les données afin que les affections rares ne soient pas négligées par les algorithmes.

Des gains nets en utilisant l’histoire complète

Lorsque les notes non structurées ont été ajoutées, les modèles se sont nettement améliorés pour distinguer qui avait ou n’avait pas une affection, en particulier pour des problèmes souvent sous-codés dans les données de facturation. Pour l’arthrite et les maladies respiratoires, les mesures de capacité des modèles à séparer patients malades et bien portants et à repérer les vrais cas se sont nettement améliorées. Par exemple, les performances pour détecter les troubles respiratoires et l’arthrite sont passées d’acceptables à solides lorsque les notes ont été incluses. Les gains pour le diabète et l’hypertension étaient plus modestes, car ces maladies étaient déjà bien renseignées dans les champs structurés. Il est intéressant de noter que les modèles plus simples ont souvent égalé, voire dépassé, le réseau neuronal plus complexe, ce qui suggère que l’apprentissage profond sophistiqué n’est pas toujours nécessaire pour ce type d’analyse au niveau des cliniques.

Ce que cela signifie pour vos soins futurs

Dans l’ensemble, l’étude montre que prêter attention aux parties narratives des dossiers médicaux — pas seulement aux codes et aux résultats de laboratoire — peut améliorer sensiblement notre capacité à identifier les patients atteints de maladies chroniques. En transformant les notes en texte libre en signaux lisibles par machine et en les combinant aux données structurées existantes, les systèmes de santé pourraient repérer les patients à risque plus tôt, cibler les suivis là où ils sont le plus nécessaires, et étendre cette approche à d’autres affections qui résident principalement dans le récit écrit de la consultation plutôt que dans les menus déroulants.

Citation: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

Mots-clés: dossiers médicaux électroniques, détection des maladies chroniques, traitement du langage naturel, apprentissage automatique en santé, données de soins primaires