Clear Sky Science · fr

Intégration de la sensibilisation à l’équité dans les modèles de traitement du langage clinique

· Retour à l’index

Pourquoi cela compte pour les soins réels

La médecine moderne s’appuie de plus en plus sur l’intelligence artificielle développée à partir des dossiers de santé électroniques. Or un fait élémentaire concernant les patients — leur race et leur ethnicité — est souvent absent ou consigné de manière incohérente. Cette lacune complique la détection et la correction des inégalités de santé. Cet article examine si les ordinateurs peuvent retrouver de manière fiable l’information sur la race à partir des notes des médecins tout en évitant un traitement inéquitable des différents groupes, et ce que cela révèle sur les biais présents à la fois dans les dossiers médicaux et dans les outils d’IA.

Figure 1
Figure 1.

Lacunes cachées dans les dossiers médicaux

De nombreux hôpitaux et cliniques laissent les champs de race et d’ethnicité vides ou utilisent des catégories dépassées. Ces entrées manquantes ne sont pas de simples erreurs administratives : elles peuvent fausser les statistiques sur qui tombe malade, qui reçoit quels soins et qui bénéficie des nouveaux traitements. Par ailleurs, les parties en texte libre des dossiers — antécédents sociaux et notes sur les facteurs de risque — mentionnent souvent, de façon incidente, l’origine d’un patient. Les auteurs se sont demandé si ces indices dispersés dans le texte non structuré pouvaient être convertis en un enregistrement structuré et cohérent de la race, fournissant une image plus claire des inégalités en matière de santé et d’accès aux soins.

Apprendre aux ordinateurs à lire les notes des médecins

L’équipe a travaillé avec une grande base de données canadienne de soins primaires contenant des dossiers d’environ 400 000 patients et plus de 400 cliniques. À partir de celle-ci, ils ont extrait un échantillon représentatif de près de 4 000 adultes et annoté avec soin les phrases qui faisaient clairement référence à la race ou à l’ethnicité, en utilisant neuf catégories telles que Noir, Asie de l’Est, Latino-américain et Autochtone, plus une catégorie « absente » lorsque aucune mention n’apparaissait. Comme la plupart des notes ne mentionnent jamais la race, ils ont utilisé une stratégie d’« apprentissage actif » dans laquelle un modèle initial d’IA signalait les notes pour lesquelles il était le plus incertain, afin que les annotateurs humains se concentrent sur les cas les plus susceptibles de contenir une information sur la race.

Figure 2
Figure 2.

Construire des modèles de langage plus équitables

Les chercheurs ont comparé plusieurs modèles de langage à base de transformeurs populaires — comme BERT et ses variantes cliniques — avec un réseau de neurones convolutionnel hiérarchique construit sur mesure. Contrairement aux modèles standards qui traitent une note comme une longue chaîne de mots, le modèle hiérarchique reflète la façon dont les cliniciens écrivent : il traite les mots au sein des phrases, puis les phrases au sein d’une note, et enfin les notes du patient au fil du temps. L’équipe a également expérimenté un entraînement « conscient de l’équité », ajoutant des termes à la fonction de perte qui pénalisent de grandes différences de taux d’erreur entre groupes raciaux et ajustant l’importance accordée aux erreurs pour les groupes sous-représentés.

Ce qui a fonctionné, ce qui n’a pas fonctionné

Le modèle hiérarchique a surpassé tous les transformeurs dans l’ensemble, atteignant une très bonne précision et une performance plus équilibrée entre les catégories raciales, même avant les ajustements pour l’équité. En revanche, plusieurs transformeurs ont bien performé pour les patients blancs mais ont manqué de nombreux cas parmi les groupes plus petits, prédisant parfois uniquement la catégorie majoritaire. L’ajout de contraintes d’équité a aidé certains modèles de manière substantielle, en particulier BERT, rendant leurs prédictions à la fois plus précises et mieux réparties entre les groupes. Mais ces mêmes contraintes ont nui à d’autres modèles, y compris le modèle hiérarchique, et dans un transformeur clinique elles ont provoqué un effondrement vers des prédictions majoritaires. L’étude a aussi mis en évidence des différences persistantes aux intersections de la race, du sexe et de l’âge : les Autochtones, les personnes d’ascendance mixte et certains sous-groupes asiatiques et latino-américains restent les plus difficiles à classer.

Ce que cela révèle sur les biais

Parce que le modèle le plus performant pouvait détecter de manière fiable l’information sur la race lorsqu’elle était présente, les auteurs soutiennent que le problème principal n’est pas l’absence de signal dans les notes, mais la manière dont les modèles et les jeux de données interagissent avec des inégalités structurelles de longue date. Le biais s’est infiltré par la sous-représentation de certains groupes, par les schémas de description des patients par les cliniciens, et même par le processus d’apprentissage actif qui a choisi quelles notes annoter. L’entraînement conscient de l’équité a réduit certaines disparités mais n’a pas pu surmonter complètement ces problèmes en amont, et son effet dépend fortement de la conception du modèle.

Message à retenir pour les patients et les cliniciens

Ce travail montre qu’il est techniquement possible de construire des modèles de langage qui retrouvent l’information sur la race à partir du texte clinique avec une haute précision et une plus grande équité, surtout lorsque l’architecture respecte la structure en couches des notes médicales. Toutefois, il montre aussi clairement que les algorithmes seuls ne peuvent pas corriger les inégalités qui prennent leur source dans les pratiques de documentation et dans le système de santé lui-même. Pour que l’IA favorise des soins plus justes, l’équité doit être intégrée à chaque étape — de la collecte et de l’échantillonnage des données à l’entraînement, l’audit et l’utilisation des modèles — tandis que les institutions de santé améliorent la manière dont elles enregistrent et prennent en compte les informations sociales et démographiques.

Citation: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9

Mots-clés: traitement automatique du langage clinique, équité algorithmique, dossiers de santé électroniques, équité en santé, données sur la race et l’ethnicité