Clear Sky Science · pt

Avaliação do risco de viés em ensaios clínicos com grandes modelos de linguagem e ROBUST-RCT: um estudo de viabilidade

· Voltar ao índice

Por que isso importa para pacientes e médicos

A medicina moderna depende de ensaios clínicos para decidir quais tratamentos funcionam, mas mesmo estudos bem desenhados podem enganar se estiverem enviesados. Verificar cada ensaio cuidadosamente em busca de problemas ocultos é um trabalho lento e complexo que pode atrasar a atualização de diretrizes médicas por anos. Este estudo investiga se grandes modelos de linguagem — sistemas avançados de IA que leem e analisam textos — podem ajudar humanos a julgar mais rapidamente e com mais consistência quão confiáveis são os ensaios clínicos, usando uma ferramenta mais nova e simples chamada ROBUST-RCT.

Como a qualidade dos ensaios é avaliada hoje

Ensaios clínicos são frequentemente chamados de padrão-ouro, mas ainda assim podem ser distorcidos por falhas de desenho, relatos inadequados ou análises seletivas. Para identificar esses problemas, revisores costumam usar a lista de verificação Risk of Bias 2 (RoB 2) da Cochrane. Embora rigorosa, a RoB 2 é notoriamente demorada, difícil de aplicar mesmo por especialistas e gera apenas concordância moderada entre revisores diferentes. Ao mesmo tempo, o número de ensaios publicados a cada ano continua a crescer, mas a quantidade de estudos efetivamente incluídos em revisões sistemáticas não acompanhou esse ritmo, e muitas revisões já estão desatualizadas na publicação. Essa lacuna crescente estimulou o interesse por ferramentas mais fáceis de usar e por auxílio tecnológico da IA.

Uma nova ferramenta e um papel para a IA

ROBUST-RCT é uma alternativa recentemente desenvolvida à RoB 2. Em vez de tentar capturar todas as possíveis fontes de viés, ela foca em seis itens centrais que são ao mesmo tempo comuns e fortemente ligados a efeitos de tratamento distorcidos. A ferramenta foi desenhada por epidemiologistas para equilibrar simplicidade e rigor científico, e foi testada em termos de usabilidade com revisores juniores. Como o ROBUST-RCT é mais novo e menos familiar que a RoB 2, os autores viram uma oportunidade: combinar essa lista de verificação simplificada com grandes modelos de linguagem para avaliar se a IA poderia auxiliar de forma confiável na avaliação do viés dos ensaios ao lado de revisores humanos.

Figure 1
Figura 1.

O que os pesquisadores testaram na prática

A equipe selecionou aleatoriamente 20 ensaios farmacológicos indexados no PubMed Central e, após exclusões, ficou com 9 ensaios clínicos randomizados para análise detalhada. Três pesquisadores médicos em início de carreira usaram de forma independente o manual do ROBUST-RCT para avaliar o desfecho primário de cada ensaio e depois resolveram discordâncias em reuniões de consenso. Em paralelo, quatro modelos diferentes de grande linguagem — GPT-4-turbo, Gemini 2.5 Pro Preview, DeepSeek-R1 e Qwen3-235B-A22B — receberam os PDFs completos dos ensaios mais um prompt de instrução detalhado passo a passo explicando como aplicar o ROBUST-RCT. A pergunta central foi: quão próximos os pareceres finais de cada IA ficaram do consenso humano nas seis questões principais da ferramenta?

Quão bem as IAs concordaram com os humanos

Para quantificar a concordância, os autores usaram uma estatística chamada AC2 de Gwet, que melhora as pontuações Kappa mais familiares e lida melhor com padrões de avaliação desiguais. Entre 54 comparações pareadas humano–IA, três dos quatro modelos atingiram pelo menos confiabilidade “moderada” quando avaliados probabilisticamente, o que significa que suas avaliações frequentemente foram semelhantes às do consenso humano e divergências grandes foram relativamente raras. Gemini 2.5 Pro Preview teve o melhor desempenho (AC2 de 0,69), seguido por Qwen3-235B-A22B (0,65) e GPT-4-turbo (0,60). DeepSeek-R1 foi o mais fraco (0,46) e tendia a classificar os ensaios como mais enviesados do que os humanos, possivelmente porque se baseou apenas em extração de texto e não pôde aproveitar totalmente tabelas e figuras. Notavelmente, quando os autores olharam apenas para os revisores humanos antes da reunião de consenso, a própria concordância entre eles (Kappa de Fleiss de 0,49) foi semelhante ao que já foi relatado para a ferramenta RoB 2 mais antiga.

Figure 2
Figura 2.

O que isso significa para futuras revisões de evidência

Apesar do pequeno tamanho amostral, este estudo de viabilidade mostra que vários modelos atuais de grande linguagem podem alcançar pelo menos concordância moderada com revisores humanos ao aplicar o ROBUST-RCT, uma ferramenta de risco de viés mais simples para ensaios clínicos. Na prática, esses modelos poderiam eventualmente atuar como um “terceiro revisor” para desempatar, sinalizar erros prováveis ou pré-selecionar estudos para que especialistas humanos se concentrem nos casos mais complexos ou controversos. Os autores enfatizam que a IA não substituirá o julgamento humano e que questões éticas — como privacidade de dados, treinamento com material protegido por direitos autorais e o risco de dependência excessiva em ferramentas automatizadas — precisam ser tratadas. Ainda assim, os achados sugerem que a IA, quando bem orientada, pode ajudar a manter revisões sistemáticas mais atualizadas, permitindo que clínicos e comitês de diretrizes gastem menos tempo em pontuação técnica e mais tempo interpretando o que o conjunto de evidências significa para o cuidado ao paciente.

Citação: Vidor, P.R., Casiraghi, Y., de Souza, A.M. et al. Assessing the risk of bias of clinical trials with large language models and ROBUST-RCT: a feasibility study. Sci Rep 16, 13723 (2026). https://doi.org/10.1038/s41598-026-44303-z

Palavras-chave: risco de viés, ensaios clínicos, revisões sistemáticas, grandes modelos de linguagem, medicina baseada em evidências