Clear Sky Science · pt
Melhorando a predição personalizada de risco de suicídio para pacientes do VA integrando modelos discretos de processamento de linguagem natural
Por que esta pesquisa é importante
O suicídio entre veteranos militares é uma crise de saúde pública urgente, e ainda assim nossas melhores ferramentas de predição deixam escapar muitas pessoas em risco, especialmente aquelas que não aparentam estar em perigo óbvio. Este estudo investiga se os computadores podem aprender mais a partir das palavras escritas nos prontuários médicos dos veteranos para identificar melhor quem pode precisar de ajuda, com foco especial naqueles atualmente classificados apenas como risco baixo ou moderado.

Olhando além dos números habituais
O Departamento de Assuntos de Veteranos dos EUA (VA) já usa um sistema chamado REACH-VET para sinalizar veteranos com maior risco de suicídio. O REACH-VET baseia‑se em informações “estruturadas” que se encaixam bem em tabelas, como diagnósticos, internações anteriores ou se alguém já relatou pensamentos suicidas. Embora poderoso, esse método funciona melhor para pacientes que usam serviços do VA com frequência e geram muitos desses dados. Veteranos que têm menos consultas, ou cujas dificuldades não são totalmente capturadas em caixas de seleção e códigos, podem ser negligenciados apesar de estarem em perigo.
Transformando anotações dos médicos em sinais utilizáveis
Muito do que os clínicos sabem sobre um paciente vive em notas de texto livre, em vez de campos organizados. Os pesquisadores exploraram essas notas escritas — registradas de 5 a 30 dias antes da morte para veteranos que morreram por suicídio, e na mesma janela para veteranos pareados que não morreram — para ver se padrões na linguagem poderiam afiar a predição de risco. Compararam duas formas de processar o texto. Uma era um método “semântico” que parte de dicionários construídos por especialistas, capturando ideias como laços familiares, prazer ou sentimentos negativos. A outra era um método de “contagem” que simplesmente soma com que frequência palavras ou frases curtas aparecem, permitindo que os dados revelem padrões sem pressuposições prévias.
Combinando duas lentes sobre a linguagem
Com esses ingredientes, a equipe construiu modelos de aprendizado de máquina que tentaram distinguir veteranos que morreram por suicídio daqueles semelhantes que não morreram, separadamente dentro de três grupos: alto, moderado e baixo risco previsto pelo REACH-VET. Criaram modelos que usavam apenas características semânticas, apenas contagens de palavras ou um híbrido de ambos. Para mesclar as duas abordagens de texto de forma justa, ajustaram o modelo para que as características semânticas, que são menos numerosas, ainda tivessem chance de influenciar as decisões ao lado das muito mais numerosas características de contagem. O desempenho foi medido usando uma métrica padrão que pergunta, em essência, com que frequência o modelo atribui uma pontuação de risco maior a alguém que morreu por suicídio do que a uma pessoa pareada que não morreu.

O que os modelos descobriram
Em todos os três grupos de risco, modelos baseados exclusivamente em contagens de palavras geralmente superaram os modelos que usavam apenas dicionários semânticos. Ainda assim, os modelos mais bem‑sucedidos para veteranos nas faixas moderada e baixa do REACH-VET foram híbridos que se apoiaram fortemente nas contagens de palavras, mantendo ainda alguma informação das medidas semânticas. Esses modelos combinados alcançaram ganhos moderados em relação ao REACH-VET sozinho, com as maiores melhorias para veteranos inicialmente rotulados como de baixo risco, que também tendiam a ter menos atendimentos médicos e menos dados estruturados. Os padrões de linguagem que importaram diferiram por grupo: notas de alto risco enfatizaram problemas agudos de saúde mental, notas de risco moderado destacaram processos de cuidado, e notas de baixo risco tenderam para temas médicos gerais e de reabilitação, bem como sinais de conexão social ou sua ausência.
Implicações para cuidado e prevenção
Esses achados sugerem que o texto não estruturado nos prontuários eletrônicos contém pistas valiosas que podem refinar estimativas de risco de suicídio, especialmente para pessoas que não estão já na categoria de maior risco. Ao mesclar padrões simples de contagem de palavras com sinais semânticos mais fundamentados em teoria, e ao ajustar modelos para diferentes níveis de risco, sistemas de saúde podem ser capazes de identificar veteranos vulneráveis mais cedo e desenhar intervenções compatíveis com seu nível e tipo de risco. Para pacientes de risco mais baixo, isso pode significar apoios de menor intensidade, como checagens automatizadas, encaminhamentos a programas de pares ou bem‑estar, ou discussões rotineiras sobre desafios sociais e emocionais em consultas regulares.
O que isso significa para veteranos e clínicos
Em termos simples, o estudo mostra que prestar atenção à forma como os clínicos descrevem seus pacientes — junto com os dados médicos tradicionais — pode tornar as ferramentas de predição de suicídio mais sensíveis aos veteranos que de outra forma poderiam escapar às medidas. Embora os ganhos sejam modestos e a abordagem ainda precise ser testada em cenários clínicos em tempo real, marca um passo concreto rumo a uma prevenção do suicídio mais personalizada e informada por dados, que atenda não apenas aqueles em crise evidente, mas também aqueles cujo risco é mais silencioso, mais complexo e mais fácil de perder de vista.
Citação: Dimambro, M., Levy, J., Gui, J. et al. Enhancing personalized suicide risk prediction for VA patients by integrating discrete natural language processing models. Transl Psychiatry 16, 196 (2026). https://doi.org/10.1038/s41398-026-03940-8
Palavras-chave: risco de suicídio de veteranos, prontuários eletrônicos, processamento de linguagem natural, modelos de previsão de risco, atenção à saúde mental