Clear Sky Science · pt

Integração da consciência de justiça em modelos de processamento de linguagem clínica

· Voltar ao índice

Por que isso importa para a saúde na prática

A medicina moderna depende cada vez mais de inteligência artificial construída a partir de prontuários eletrônicos. Ainda assim, um dado básico sobre pacientes — sua raça e etnia — costuma estar ausente ou ser registrado de forma inconsistente. Essa lacuna dificulta descobrir e remediar desigualdades em saúde. Este artigo investiga se computadores podem recuperar de forma confiável informações sobre raça a partir das anotações médicas, evitando também tratamento injusto entre diferentes grupos, e o que isso revela sobre vieses tanto nos registros médicos quanto nas ferramentas de IA.

Figure 1
Figure 1.

Lacunas ocultas nos prontuários

Muitos hospitais e clínicas deixam os campos de raça e etnia em branco ou usam categorias desatualizadas. Essas entradas faltantes não são apenas erros administrativos; elas podem distorcer estatísticas sobre quem fica doente, quem recebe determinado atendimento e quem se beneficia de novos tratamentos. Ao mesmo tempo, as partes em texto livre dos registros — histórico social e notas sobre fatores de risco — frequentemente mencionam, de passagem, o contexto do paciente. Os autores perguntaram se essas pistas dispersas no texto não estruturado poderiam ser transformadas em um registro estruturado e consistente sobre raça, oferecendo uma visão mais clara das desigualdades em saúde e no uso dos serviços.

Ensinando computadores a ler as anotações médicas

A equipe trabalhou com um grande banco de dados canadense de atenção primária contendo registros de cerca de 400.000 pacientes e mais de 400 clínicas. A partir disso, selecionaram uma amostra representativa de quase 4.000 pacientes adultos e rotularam cuidadosamente frases que faziam referência clara a raça ou etnia, usando nove categorias como Negra, Leste Asiática, Latino-americana e Indígena, além de uma categoria “ausente” quando não havia menção. Como a maioria das notas nunca cita raça, empregaram uma estratégia de “aprendizado ativo” em que um modelo inicial de IA sinalizava as notas sobre as quais estava mais incerto, para que anotadores humanos pudessem focar nos casos mais propensos a conter informação de raça.

Figure 2
Figure 2.

Construindo modelos de linguagem mais justos

Os pesquisadores compararam vários modelos de linguagem baseados em transformers populares — como BERT e suas variantes clínicas — com uma rede neural convolucional hierárquica desenvolvida sob medida. Ao contrário dos modelos padrão que tratam uma nota como uma longa sequência de palavras, o modelo hierárquico espelha como os clínicos escrevem: processa palavras dentro das frases, depois frases dentro de uma anotação e, por fim, as anotações do paciente ao longo do tempo. A equipe também experimentou com treinamento “sensível à justiça”, adicionando termos à função de perda que penalizam grandes diferenças nas taxas de erro entre grupos raciais e ajustando o quanto o modelo “se importa” com erros para grupos sub-representados.

O que funcionou e o que não funcionou

O modelo hierárquico superou todos os transformers no conjunto, alcançando precisão muito alta e desempenho mais equilibrado entre categorias raciais, mesmo antes dos ajustes de justiça. Em contraste, vários transformers foram eficazes para pacientes brancos, mas perderam muitos casos entre grupos menores, às vezes prevendo apenas a categoria majoritária. A adição de restrições de justiça ajudou alguns modelos substancialmente, especialmente o BERT, tornando suas previsões mais precisas e mais distribuídas entre os grupos. Mas as mesmas restrições prejudicaram outros modelos, incluindo o hierárquico, e em um transformer clínico fizeram o sistema colapsar de volta para previsões majoritárias. O estudo também encontrou diferenças persistentes nas interseções de raça, sexo e idade, com pessoas indígenas, de herança mista e alguns subgrupos asiáticos e latino-americanos permanecendo os mais difíceis de classificar.

O que isso revela sobre viés

Como o modelo de melhor desempenho conseguiu detectar de forma confiável informação racial quando ela estava presente, os autores argumentam que o problema principal não é falta de sinal nas notas, mas como modelos e conjuntos de dados interagem com desigualdades estruturais de longa data. O viés entrou por meio da sub-representação de certos grupos, por padrões na forma como clínicos descrevem pacientes distintos e até pelo próprio processo de aprendizado ativo que escolheu quais notas rotular. O treinamento sensível à justiça reduziu algumas disparidades, mas não conseguiu superar totalmente essas questões a montante, e seu impacto dependia fortemente do desenho do modelo.

Mensagem final para pacientes e clínicos

Este trabalho mostra que é tecnicamente possível construir modelos de linguagem que recuperem informações sobre raça a partir de texto clínico com alta precisão e maior justiça, especialmente quando as arquiteturas respeitam a estrutura em camadas das anotações médicas. No entanto, também deixa claro que algoritmos sozinhos não podem corrigir desigualdades que se originam nas práticas de documentação e no próprio sistema de saúde. Para que a IA apoie um cuidado mais justo, a justiça precisa ser incorporada em todas as etapas — desde como os dados são coletados e amostrados até como os modelos são treinados, auditados e utilizados — enquanto as instituições de saúde melhoram a forma como registram e atuam sobre informações sociais e demográficas.

Citação: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9

Palavras-chave: processamento de linguagem natural clínica, justiça algorítmica, prontuários eletrônicos, equidade em saúde, dados de raça e etnia