Clear Sky Science · fr

Améliorer la prédiction personnalisée du risque de suicide chez les patients du VA en intégrant des modèles discrets de traitement automatique du langage

2026-03-20 · Retour à l’index

Pourquoi cette recherche est importante

Le suicide chez les anciens combattants est une crise de santé publique urgente, et pourtant nos meilleurs outils de prédiction manquent encore de nombreux individus à risque, en particulier ceux qui ne semblent pas en danger évident. Cette étude examine si les ordinateurs peuvent extraire davantage d’informations des mots figurant dans les dossiers médicaux des vétérans pour mieux repérer ceux qui pourraient avoir besoin d’aide, en mettant l’accent sur les personnes actuellement classées à risque faible ou modéré.

Au-delà des chiffres habituels

Le ministère des Anciens Combattants des États-Unis (VA) utilise déjà un système appelé REACH‑VET pour signaler les vétérans à risque le plus élevé de suicide. REACH‑VET s’appuie sur des informations « structurées » qui se rangent facilement dans des tableaux, comme les diagnostics, les hospitalisations passées ou le fait qu’une personne ait déjà rapporté des pensées suicidaires. Bien que puissant, cet approche fonctionne mieux pour les patients qui utilisent souvent les services du VA et génèrent beaucoup de ce type de données. Les vétérans qui consultent moins, ou dont les difficultés ne sont pas pleinement captées par des cases à cocher et des codes, peuvent être négligés malgré un danger réel.

Transformer les notes des cliniciens en signaux exploitables

Une grande partie de ce que les cliniciens savent sur un patient figure dans des notes en texte libre plutôt que dans des champs ordonnés. Les chercheurs ont exploité ces notes écrites — prises entre 5 et 30 jours avant le décès pour les vétérans décédés par suicide, et dans la même fenêtre pour des vétérans appariés qui ne sont pas décédés — afin de vérifier si des motifs de langage pouvaient affiner la prédiction du risque. Ils ont comparé deux manières de traiter le texte. La première, dite « sémantique », part de dictionnaires construits par des experts capturant des notions comme les liens familiaux, le plaisir ou les émotions négatives. La seconde, appelée méthode de « comptage », se contente de dénombrer la fréquence d’apparition de mots ou de courtes expressions, laissant les données révéler des motifs sans hypothèses préalables.

Combiner deux regards sur le langage

Avec ces ingrédients, l’équipe a construit des modèles d’apprentissage automatique visant à distinguer les vétérans décédés par suicide de vétérans similaires qui ne l’étaient pas, séparément au sein de trois groupes : risque élevé, modéré et faible selon REACH‑VET. Ils ont créé des modèles n’utilisant que des caractéristiques sémantiques, uniquement des comptes de mots, ou un hybride des deux. Pour combiner équitablement les deux approches textuelles, ils ont ajusté le modèle afin que les caractéristiques sémantiques, moins nombreuses, aient malgré tout une chance d’influencer les décisions aux côtés des caractéristiques de comptage beaucoup plus nombreuses. La performance a été mesurée à l’aide d’une métrique standard qui évalue, en substance, la fréquence à laquelle le modèle attribue un score de risque plus élevé à une personne décédée par suicide qu’à une personne appariée qui ne l’était pas.

Ce que les modèles ont révélé

Dans les trois groupes de risque, les modèles basés uniquement sur les comptes de mots ont généralement surpassé ceux qui n’utilisaient que des dictionnaires sémantiques. Pourtant, les modèles les plus performants pour les vétérans des catégories REACH‑VET modérée et faible étaient des hybrides s’appuyant fortement sur les comptes de mots tout en tirant certaines informations des mesures sémantiques. Ces modèles combinés ont obtenu des gains modérés par rapport à REACH‑VET seul, avec les plus grandes améliorations chez les vétérans initialement classés à faible risque, qui avaient également tendance à avoir moins de contacts médicaux et moins de données structurées. Les motifs linguistiques pertinents différaient selon le groupe : les notes des personnes à haut risque mettaient l’accent sur des problèmes psychiatriques aigus, celles des personnes à risque modéré soulignaient des processus de prise en charge, et les notes des personnes à faible risque penchaient vers des thèmes médicaux et de réadaptation généraux, ainsi que des signes de connexion sociale ou de son absence.

Implications pour les soins et la prévention

Ces résultats suggèrent que le texte non structuré des dossiers de santé électroniques contient des indices précieux susceptibles d’affiner les estimations du risque de suicide, en particulier pour les personnes qui ne figurent pas déjà dans la catégorie de risque la plus élevée. En combinant des motifs simples de comptage de mots avec des signaux sémantiques plus théoriques, et en adaptant les modèles aux différents niveaux de risque, les systèmes de santé pourraient repérer plus tôt les vétérans vulnérables et concevoir des interventions adaptées à leur niveau et type de risque. Pour les patients à risque moindre, cela pourrait signifier des soutiens légers comme des contrôles automatisés, des orientations vers des programmes de pair‑aide ou de bien‑être, ou des discussions de routine sur les difficultés sociales et émotionnelles lors des visites habituelles.

Ce que cela signifie pour les vétérans et les cliniciens

En termes clairs, l’étude montre que prêter attention à la manière dont les cliniciens décrivent leurs patients — en complément des données médicales traditionnelles — peut rendre les outils de prédiction du suicide plus sensibles aux vétérans qui pourraient autrement passer entre les mailles du filet. Bien que les gains soient modestes et que l’approche doive encore être testée en temps réel dans des contextes cliniques, il s’agit d’un pas concret vers une prévention du suicide plus personnalisée et informée par les données, qui sert non seulement ceux en crise évidente, mais aussi ceux dont le risque est plus discret, plus complexe et plus facile à manquer.

Citation: Dimambro, M., Levy, J., Gui, J. et al. Enhancing personalized suicide risk prediction for VA patients by integrating discrete natural language processing models. Transl Psychiatry 16, 196 (2026). https://doi.org/10.1038/s41398-026-03940-8

Mots-clés: risque de suicide chez les vétérans, dossiers de santé électroniques, traitement automatique du langage, modèles de prédiction du risque, soins de santé mentale