Clear Sky Science · pt

Aproveitando processamento de linguagem natural e aprendizado de máquina para identificar condições crônicas a partir de prontuários eletrônicos da atenção primária

2026-02-12 · Voltar ao índice

Por que as anotações do seu médico importam mais do que você imagina

Quando você consulta o médico de família, cada tosse, queixa e preocupação é registrada no seu prontuário eletrônico. Muito desse detalhe vive em notas de texto livre em vez de caixas de seleção organizadas. Este estudo mostra que essas notas narrativas, quando combinadas com técnicas computacionais modernas, podem ajudar os médicos a identificar doenças crônicas como artrite, doença renal, diabetes, hipertensão e problemas respiratórios com mais precisão — especialmente quando esses problemas não estão claramente codificados em outras partes do prontuário.

Pistas escondidas nos registros cotidianos da clínica

Os prontuários eletrônicos na atenção primária contêm dois tipos bem diferentes de informação. Há itens estruturados, como códigos de faturamento, listas de medicamentos e resultados de exames, e há notas não estruturadas, onde os clínicos descrevem sintomas, histórico e seu raciocínio em linguagem comum. No Canadá, os códigos de faturamento costumam ser incompletos e usados principalmente para pagamento em vez de diagnóstico preciso, de modo que muitas questões de saúde aparecem com mais clareza nas notas do que nas caixas de seleção. Os pesquisadores propuseram-se a verificar se minerar ambos os tipos de informação em conjunto poderia identificar melhor cinco condições crônicas comuns em pacientes com 60 anos ou mais que frequentaram uma única clínica de medicina familiar em Alberta.

Ensinando computadores a ler a linguagem dos médicos

Para explorar o texto rico, mas desordenado, das notas clínicas, a equipe usou processamento de linguagem natural, um conjunto de ferramentas que ajuda computadores a trabalhar com a linguagem humana. Eles limparam as notas removendo símbolos estranhos, padronizando palavras, expandindo abreviações e reduzindo palavras relacionadas a raízes comuns. Também construíram regras simples para reconhecer quando uma nota dizia que o paciente não tinha uma condição — por exemplo, frases como “sem evidência de” ou “foi descartado” — para que o computador não tratasse esses trechos como casos positivos. Clínicos da equipe criaram listas de termos e frases relevantes para cada condição, ajudando os algoritmos a focar em ideias médicas pertinentes em vez de cada palavra solta.

Encontrando temas e aprendendo com padrões

Em seguida, os pesquisadores quantificaram o texto para que pudesse ser alimentado em modelos de aprendizado de máquina. Contaram com que frequência cada palavra ou par de palavras aparecia nas notas de cada paciente, mas também reduziram o peso de palavras muito comuns e destacaram aquelas especialmente distintivas para uma condição específica. Usando um método chamado modelagem de tópicos, verificaram se os grupos de palavras mais frequentes nas notas correspondiam às condições de interesse — por exemplo, termos associados a diabetes ou hipertensão. Essa etapa serviu como um cheque de realidade, confirmando que os temas identificados pelo computador batiam com o conhecimento clínico antes de construir os modelos de predição.

Deixando os algoritmos sinalizarem quem provavelmente está doente

O núcleo do estudo foi treinar três tipos de modelos de aprendizado de máquina para decidir se cada paciente provavelmente tinha cada uma das cinco condições crônicas. Um modelo funcionou como um calculador de risco refinado, outro traçou uma fronteira entre casos saudáveis e doentes, e um terceiro se assemelhava a uma rede simples inspirada no cérebro. Os pesquisadores primeiro treinaram esses modelos usando apenas as partes estruturadas do prontuário e, depois, os re-treinaram usando tanto os dados estruturados quanto as características de texto processadas das notas. Eles também ajustaram o fato de que algumas doenças eram menos comuns na amostra, reequilibrando cuidadosamente os dados para que condições raras não fossem negligenciadas pelos algoritmos.

Ganhos claros ao usar a história completa

Quando as notas não estruturadas foram adicionadas, os modelos ficaram notavelmente melhores em distinguir quem tinha e quem não tinha uma condição, especialmente para problemas frequentemente subcodificados nos dados de faturamento. Para artrite e doenças respiratórias, medidas de quão bem os modelos separavam pacientes doentes e saudáveis e de quão confiavelmente sinalizavam casos verdadeiros melhoraram de forma marcante. Por exemplo, o desempenho para detectar problemas respiratórios e artrite passou de razoável para forte quando as notas foram incluídas. Os ganhos para diabetes e hipertensão foram menores porque essas condições já estavam bem capturadas em campos estruturados. Curiosamente, os modelos mais simples frequentemente tiveram desempenho tão bom quanto, ou melhor que, a rede neural mais complexa, sugerindo que aprendizado profundo sofisticado nem sempre é necessário para esse tipo de trabalho em nível de clínica.

O que isso significa para seu cuidado futuro

No geral, o estudo mostra que prestar atenção às partes narrativas dos prontuários médicos — não apenas aos códigos e números de exames — pode afiar significativamente nossa capacidade de identificar pacientes com doenças crônicas. Ao transformar notas em texto livre em sinais legíveis por máquina e combiná‑los com dados estruturados existentes, os sistemas de saúde podem ser capazes de identificar pacientes em risco mais cedo, direcionar o acompanhamento onde é mais necessário e estender essa abordagem a outras condições que aparecem principalmente na história escrita da visita em vez dos menus de seleção.

Citação: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

Palavras-chave: prontuários eletrônicos, detecção de doenças crônicas, processamento de linguagem natural, aprendizado de máquina na saúde, dados de atenção primária