Clear Sky Science · fr

Analyse des adresses des patients via apprentissage contrastif conscient de KG et inférence LLM contrainte sur site

2026-02-09 · Retour à l’index

Pourquoi des adresses patients bien rangées comptent

Derrière chaque visite à l’hôpital se cache une ligne de texte modeste : l’adresse du domicile du patient. Loin d’être un détail administratif, ces adresses alimentent la cartographie des maladies, la planification des urgences et les décisions sur l’implantation des cliniques et des ambulances. Pourtant, dans de nombreux systèmes de dossiers médicaux, les adresses sont stockées sous forme de texte désordonné et incohérent, rempli d’abréviations, de fautes de frappe et d’informations manquantes. Cet article présente AddrKG‑LLM, une nouvelle méthode qui transforme ces textes d’adresses indisciplinés en enregistrements propres et fiables tout en préservant la confidentialité des données sensibles.

Le problème des adresses domicilières brouillonnes

Lorsque les adresses sont saisies librement, les gens omettent des quartiers, inversent l’ordre des mots ou utilisent des sobriquets locaux que les cartes officielles ne reconnaissent pas. Les anciennes méthodes informatiques comparent les chaînes caractère par caractère ou comme de simples listes de mots, ce qui ne fonctionne que lorsque les entrées sont déjà soignées et complètes. Les systèmes d’apprentissage profond plus récents lisent le contexte de façon plus intelligente, mais ils peuvent encore être pris au dépourvu par des formulations inhabituelles et exigent des ressources de calcul importantes. Récemment, les grands modèles de langage ont montré une aptitude impressionnante pour comprendre et générer du texte. Cependant, lorsqu’on leur permet de répondre librement, ils ont aussi tendance à « halluciner » des détails qui ne figurent pas réellement dans les données — un risque inacceptable en santé, où les dossiers doivent être précis et audités.

Une trajectoire en deux étapes du chaos vers l’ordre

Les chercheurs ont conçu AddrKG‑LLM comme une chaîne à deux étapes qui ajoute de la structure et des garde‑fous autour du modèle de langage plutôt que de le laisser agir seul. D’abord, les adresses patients entrantes sont nettoyées pour supprimer les éléments hautement identifiants tels que les numéros d’immeuble et de logement ou les contacts téléphoniques, contribuant ainsi à la protection de la vie privée. Le texte restant est converti en une représentation numérique dense qui capture son sens. Parallèlement, l’équipe construit un graphe de connaissances — un réseau en forme de carte qui encode les relations officielles entre villes, quartiers, rues et résidences. En utilisant une technique appelée apprentissage contrastif, ils entraînent le système de sorte que les adresses renvoyant à la même communauté réelle se retrouvent proches dans cet espace partagé, tandis que les lieux sans rapport en sont écartés. Cela permet au système de récupérer rapidement une courte liste de candidats d’adresse probables pour chaque nouveau dossier patient.

Garder l’IA sous contrôle

Dans la deuxième étape, le grand modèle de langage opère à l’intérieur d’un espace de recherche soigneusement clôturé. Au lieu d’inventer une adresse à partir de zéro, le modèle reçoit le texte original nettoyé ainsi que le petit ensemble de communautés candidates suggérées par le graphe de connaissances. L’invite indique explicitement au modèle de ne choisir que parmi ces candidats et d’émettre les résultats dans une structure JSON fixe avec des champs séparés pour la ville, le quartier, la rue ou la commune, et la résidence. Si aucun des candidats ne convient — par exemple lorsque la vraie communauté n’a jamais été récupérée — le modèle est instruit de renvoyer des valeurs vides plutôt que de deviner. Ce comportement de « rejet d’abord » réduit fortement le risque que des entrées plausibles mais incorrectes s’immiscent dans les dossiers hospitaliers.

Quelle est l’efficacité en pratique ?

L’équipe a testé AddrKG‑LLM sur dix mille adresses hospitalières réelles dé‑identifiées reflétant le bruit du monde réel : abréviations, quartiers manquants, variantes orthographiques et même entrées complètement invalides. Ils ont comparé leur système aux outils classiques d’appariement de chaînes, aux modèles d’étiquetage de séquences en apprentissage profond, aux modèles de langage généralistes utilisés en mode libre et à un service commercial de standardisation des adresses. Sur des mesures strictes exigeant que chaque champ d’une adresse soit correct simultanément, AddrKG‑LLM a surpassé toutes ces approches de référence, augmentant la précision globale de plus de douze points de pourcentage par rapport à un modèle BERT performant. Les gains étaient particulièrement nets pour les adresses abrégées et partiellement manquantes, où la hiérarchie intégrée du graphe de connaissances aide à combler les lacunes. Les auteurs ont également exploré comment la performance évolue en fonction de la taille du modèle de langage et du nombre de candidats récupérés, montrant comment les hôpitaux peuvent équilibrer rapidité et précision selon leurs besoins.

Ce que cela signifie pour les soins quotidiens

Pour un public non spécialiste, le message principal est qu’AddrKG‑LLM offre un moyen de nettoyer des données d’adresses patients essentielles mais brouillonnes tout en gardant le contrôle fermement entre les mains humaines. En couplant un graphe de connaissances de type cartographique à un modèle de langage contraint qui s’exécute entièrement sur les serveurs de l’hôpital, le cadre fournit des adresses plus précises et cohérentes sans envoyer de données sensibles vers des services cloud externes ni permettre à l’IA d’improviser. Le résultat est un outil pratique qui peut renforcer la surveillance des maladies, améliorer la planification des ressources et soutenir des opérations hospitalières plus sûres et plus efficaces — simplement en veillant à ce que chaque patient soit de manière fiable localisé sur la carte.

Citation: Li, J., Pan, X. & Jia, Y. Patient address parsing via KG-aware contrastive learning and constrained on-prem LLM inference. Sci Rep 16, 8003 (2026). https://doi.org/10.1038/s41598-026-39348-z

Mots-clés: analyse des adresses des patients, qualité des données de santé, graphe de connaissances, grand modèle de langage, informatique médicale