Clear Sky Science · pt

Comparação da concordância entre grandes modelos de linguagem e conclusões publicadas de ensaios clínicos em quatro plataformas de inteligência artificial

2026-04-02 · Voltar ao índice

Por que isso importa para o atendimento à saúde do dia a dia

Médicos confiam em grandes ensaios clínicos para decidir quais tratamentos são seguros e eficazes. Ao mesmo tempo, novas ferramentas de inteligência artificial estão cada vez melhores em ler e resumir pesquisa médica. Este estudo faz uma pergunta simples, mas importante, para pacientes e clínicos: quando essas ferramentas leem os mesmos ensaios que especialistas humanos, elas chegam às mesmas conclusões finais sobre o que funciona e o que não funciona?

Como os pesquisadores testaram as ferramentas de IA

A equipe se concentrou em 20 ensaios clínicos bem conhecidos publicados no New England Journal of Medicine, cobrindo doenças cardíacas, acidente vascular cerebral, diabetes, câncer e neurocirurgia. Esses ensaios foram escolhidos por serem cuidadosamente desenhados e claramente relatados, tornando-os um campo de teste rigoroso. Em vez de fornecer os artigos completos aos sistemas de IA, os pesquisadores disponibilizaram apenas as tabelas e figuras que continham os números, como taxas de eventos e gráficos de desfecho. Isso forçou as ferramentas a se apoiarem nos dados em si, em vez de simplesmente copiar os resumos escritos pelos autores.

Figure 1. Como diferentes ferramentas de IA leem os mesmos ensaios médicos e se alinham às conclusões dos médicos.

O que foi pedido às sistemas de IA

Quatro grandes modelos de linguagem amplamente usados foram testados: ChatGPT, Gemini, Grok3 e Claude. Cada modelo recebeu o mesmo prompt padronizado, solicitando que interpretasse os dados em cinco aspectos. Os modelos tiveram de explicar as descobertas gerais, interpretar as estatísticas, relacionar os resultados ao cuidado do paciente, apontar limitações do estudo e sugerir como as conclusões poderiam ser aplicadas na prática. Dois analistas treinados então compararam cada resposta da IA ao artigo original do ensaio e pontuaram o desempenho em cada uma dessas cinco áreas numa escala de zero a cinco.

Quão bem a IA concordou com as conclusões humanas

O ChatGPT mostrou a maior concordância com as conclusões publicadas dos ensaios, obtendo uma pontuação mediana perfeita de 25 em 25 nos 20 ensaios. O Gemini seguiu com 21 em 25, enquanto Grok3 e Claude ficaram atrás, com pontuações medianas de 18 e 17. Todas as quatro ferramentas tiveram melhor desempenho ao descrever por que os resultados importam para os pacientes, e o ChatGPT em particular pontuou no topo em todos os domínios. O Gemini também se saiu bem ao identificar fraquezas do estudo e potenciais fatores de confusão, ao passo que Grok3 e Claude foram menos confiáveis em reconhecer limitações e em oferecer sugestões práticas de tratamento. Os dois avaliadores humanos concordaram estreitamente entre si, sugerindo que o método de pontuação em si era estável.

Figure 2. Visão passo a passo de como a IA transforma números de ensaios em julgamentos sobre tratamentos e seus limites.

Cautela sobre treinamento oculto e segurança no mundo real

Embora os números pareçam impressionantes, os autores alertam que os resultados devem ser interpretados com cautela. Os ensaios usados são famosos e provavelmente apareceram nos dados de treinamento desses sistemas de IA. Isso significa que as ferramentas podem já “conhecer” esses estudos e estar recordando padrões que viram antes, em vez de raciocinar de forma independente a partir das tabelas fornecidas. A falta de mascaramento sobre qual sistema produziu cada resposta também deixa espaço para viés humano sutil na pontuação. Além disso, os ensaios escolhidos apresentavam em sua maioria achados claros e positivos, o que representa um cenário ideal em vez da pesquisa confusa e incerta que frequentemente orienta decisões no mundo real.

O que isso significa para o cuidado futuro

Para um leigo, a conclusão é que algumas ferramentas de IA, particularmente ChatGPT e Gemini, frequentemente conseguem ler dados de ensaios médicos e concordar com as conclusões de especialistas, pelo menos em estudos conhecidos e de alta qualidade. Isso sugere que podem ser auxiliares úteis para resumir pesquisas complexas e organizar evidências, mas não estão prontas para substituir médicos ou pesquisadores. Seu histórico de treinamento é opaco, o desempenho varia entre plataformas e suas respostas não foram comprovadas como seguras para tomar decisões diretas de tratamento. Os autores defendem que a IA deve ser vista como um assistente poderoso capaz de vasculhar números e destacar padrões, enquanto os clínicos humanos continuam responsáveis pelo julgamento, empatia e decisões finais sobre o cuidado do paciente.

Citação: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Palavras-chave: grandes modelos de linguagem, ensaios clínicos, IA médica, síntese de evidências, suporte à decisão clínica