Clear Sky Science · pt

Avaliação multidisciplinar de modelos de linguagem grandes sobre perguntas sobre cirurgia bariátrica: análise comparativa do ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro

2026-04-01 · Voltar ao índice

Por que isso importa para quem considera cirurgia para perda de peso

Pessoas que estão pensando em cirurgia para perda de peso frequentemente recorrem a ferramentas online e chatbots em busca de respostas rápidas. Este estudo faz uma pergunta simples, mas importante: quando chatbots baseados em modelos de linguagem respondem perguntas comuns sobre cirurgia bariátrica, quão precisas e completas são suas respostas, e eles realmente podem apoiar pacientes e clínicos?

Chatbots modernos entrando na clínica

Os pesquisadores examinaram quatro chatbots amplamente usados baseados em modelos de linguagem grandes: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro. Eles focaram em perguntas do mundo real sobre cirurgia bariátrica, como quem é elegível, como se preparar, quais riscos esperar e quais mudanças de estilo de vida são necessárias depois. De um grupo inicial de 200 perguntas coletadas na literatura médica, redes sociais e atendimentos em clínicas, selecionaram 50 que melhor representavam as preocupações dos pacientes. Cada chatbot respondeu às 50 perguntas, gerando 200 respostas no total que foram então traduzidas e padronizadas para revisão.

Figure 1. Especialistas avaliam quatro chatbots de IA respondendo perguntas comuns sobre cirurgia para perda de peso quanto à segurança e utilidade.

Muitos especialistas, não apenas um ponto de vista

Em vez de pedir apenas a cirurgiões para julgar as respostas, a equipe reuniu um painel multidisciplinar de sete profissionais experientes: quatro cirurgiões bariátricos, um médico especialista em obesidade e dois nutricionistas. Cada especialista avaliou de forma independente a precisão de cada resposta e, para as melhores respostas, quão completa ela era. A precisão foi pontuada em uma escala de três níveis, variando de claramente errada e potencialmente prejudicial a totalmente correta. A abrangência foi avaliada em uma escala de cinco níveis que refletia o quanto a resposta cobria pontos-chave, como detalhes do procedimento, riscos e cuidados de seguimento. O processo de avaliação foi duplo-cego, de modo que os revisores não sabiam qual chatbot produziu qual resposta, e as respostas foram embaralhadas e distribuídas por várias sessões para reduzir viés.

Como os chatbots se saíram

No geral, os quatro chatbots apresentaram resultados mistos. O ERNIE Bot 4.0 obteve a maior pontuação média de precisão quando todas as avaliações dos especialistas foram somadas, mas o ChatGPT-4 teve a maior proporção de respostas julgadas simplesmente como boas, e não recebeu avaliações ruins. O Claude 3 Opus tendia a dar as respostas mais longas e detalhadas, enquanto o Gemini Pro ficou bem atrás em precisão, com menos da metade de suas respostas avaliadas como boas e várias classificadas como ruins pela maioria dos avaliadores. Todos os chatbots tiveram dificuldade em oferecer cobertura completa dos tópicos: mesmo as respostas melhores normalmente alcançavam apenas níveis moderados de detalhe, e nenhuma ofereceu de forma consistente a profundidade necessária para decisões totalmente informadas sobre cirurgia.

Figure 2. Visão passo a passo de como chatbots de IA geram respostas sobre cirurgia e como médicos distinguem orientações mais seguras de conselhos arriscados.

Onde as respostas deixam a desejar

A área mais fraca para todos os chatbots foi a explicação sobre recuperação, riscos e complicações. Esses tópicos frequentemente envolvem trade-offs sutis e acompanhamento de longo prazo, que as ferramentas tendiam a simplificar demais. Algumas respostas criaram expectativas irreais sobre perda de peso ou omitiram informações importantes de segurança, enquanto outras deram conselhos genéricos demais para serem úteis a pacientes reais. Quando os especialistas pediram aos chatbots para revisar e corrigir suas piores respostas, a maioria das ferramentas melhorou de forma perceptível, especialmente quando solicitada a verificar fontes baseadas em evidências online. No entanto, mesmo com autocorreção e busca na web, algumas respostas de determinados modelos permaneceram imprecisas, mostrando que o acesso à internet por si só não garante orientação médica confiável.

O que isso significa para pacientes e clínicos

Por ora, o estudo sugere que chatbots baseados em modelos de linguagem grandes podem ser úteis como auxílios educacionais para cirurgia bariátrica, especialmente para perguntas básicas e busca inicial de informações. Eles não estão prontos para substituir aconselhamento profissional nem para orientar decisões sobre cirurgia, recuperação ou cuidados de longo prazo por conta própria. Os autores argumentam que o uso mais seguro exigirá modelos adaptados à medicina bariátrica, fundamentados em evidências sólidas e desenvolvidos com contribuição contínua de cirurgiões, médicos, nutricionistas e enfermeiros. Com design cuidadoso e supervisão rigorosa, essas ferramentas podem eventualmente apoiar conversas mais bem informadas entre pacientes e suas equipes de cuidado, em vez de substituí-las.

Citação: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

Palavras-chave: cirurgia bariátrica, cirurgia para perda de peso, chatbots médicos, modelos de linguagem grandes, educação do paciente