Clear Sky Science · pt
Avaliação comparativa multimetric de DeepSeek e ChatGPT no USMLE versus CNMLE para educação médica
Por que ajudantes de exame mais inteligentes importam
Médicos do futuro ao redor do mundo precisam passar por exames de licenciamento rigorosos antes de poderem tratar pacientes. Ao mesmo tempo, chatbots poderosos baseados em modelos de linguagem de grande porte estão se tornando parceiros de estudo comuns. Este artigo analisa com atenção como dois desses sistemas, DeepSeek e ChatGPT, lidam com os exames de licenciamento médico usados nos Estados Unidos (USMLE) e na China (CNMLE), e faz uma pergunta simples com grandes consequências: essas ferramentas realmente podem ajudar a formar médicos bem preparados e seguros — e, em caso afirmativo, sob quais salvaguardas?

Dois grandes exames, duas ferramentas poderosas
Os pesquisadores focaram no USMLE e no CNMLE, exames nacionais que testam uma ampla gama de conhecimento médico, da ciência básica ao raciocínio clínico. Eles reuniram centenas de questões reais: 243 do exame amostral do USMLE e 300 do banco de questões do CNMLE, cobrindo temas como medicina interna, cirurgia, pediatria, psiquiatria e mais. Questões que exigiam a visualização de imagens médicas foram removidas para que ambas as ferramentas enfrentassem apenas desafios baseados em texto. A equipe então consultou duas versões de cada sistema — GPT‑4o‑mini para o ChatGPT e DeepSeek‑R1 para o DeepSeek — em inglês e em chinês, usando instruções simples que imitavam como um estudante real poderia pedir ajuda durante a preparação para o exame.
Quem respondeu melhor, e com que consistência?
Para comparar as ferramentas de forma justa, os pesquisadores executaram cada exame três vezes com cada sistema e mediram com que frequência as respostas coincidiam com o gabarito oficial. Nas questões do USMLE, o DeepSeek acertou cerca de 93% das vezes, ligeiramente à frente do ChatGPT, com aproximadamente 90%. O DeepSeek manteve uma vantagem similar no CNMLE, marcando cerca de 87% contra 79% do ChatGPT. O DeepSeek superou o ChatGPT em todos os três passos do USMLE, incluindo a seção de raciocínio clínico mais complexa, e em todas as quatro unidades do CNMLE, especialmente em áreas ricas em ciência básica e conhecimento clínico em chinês. A equipe também verificou a estabilidade das ferramentas em execuções repetidas, constatando que ambas apresentaram alta consistência, com o DeepSeek novamente um pouco mais forte.
Pensando em voz alta, mas às vezes com lentidão
Modelos de linguagem modernos frequentemente mostram seu raciocínio passo a passo, muito parecido com um estudante que escreve sua lógica. Os pesquisadores contaram o número de caracteres nessas explicações como uma medida aproximada de quanto “pensamento” cada sistema exibiu. No USMLE, as duas ferramentas foram semelhantes, fornecendo raciocínios de extensão comparável. No CNMLE, entretanto, o DeepSeek produziu explicações notavelmente mais longas, sugerindo cadeias de pensamento mais profundas ou detalhadas ao lidar com questões médicas complexas em chinês. A compensação foi a velocidade: o DeepSeek levou mais tempo para completar ambos os exames, especialmente o CNMLE, enquanto o ChatGPT respondeu mais rapidamente. Em outras palavras, o DeepSeek tendia a ser mais preciso e mais prolixo, ao passo que o ChatGPT favorecia eficiência.

Promessa, riscos e uma nova rede de segurança
Apesar de suas pontuações elevadas — maiores, em média, que as de muitos candidatos humanos — ambos os sistemas ainda cometeram erros importantes. Em alguns casos escolheram tratamentos com aparência plausível, porém incorretos, ou interpretaram mal conceitos sutis, um problema conhecido como “alucinação”, quando o modelo inventa ou aplica fatos de forma confiante e equivocada. Ao mesmo tempo, mostraram forças surpreendentes, como identificar questões de exame mal formuladas que não tinham resposta correta. Como a educação médica está intimamente ligada à segurança do paciente, os autores argumentam que essas ferramentas devem ser tratadas como assistentes, não como autoridades. Para apoiar um uso mais seguro, eles propõem um “loop” técnico de verificação de fatos que conecta o modelo a um grafo de conhecimento médico construído com cuidado. Quando o modelo responde a uma questão, suas afirmações seriam decompostas, checadas contra fontes confiáveis como diretrizes e livros-texto, e atribuídas níveis de confiança antes de serem apresentadas aos aprendizes.
O que isso significa para a formação médica futura
Para não especialistas, a mensagem é ao mesmo tempo encorajadora e cautelosa. DeepSeek e ChatGPT já performam no nível, ou acima, de muitos estudantes de medicina em exames escritos, sugerindo que podem apoiar de forma significativa o estudo, questões práticas e até o redesenho do ensino em torno de um raciocínio mais rico e passo a passo. Ainda assim, seus erros — e a opacidade de como chegam às conclusões — fazem com que não possam substituir professores humanos ou clínicos licenciados. Os autores imaginam um futuro em que esses sistemas atuem como “treinadores assistentes” rigidamente supervisionados para aprendizes médicos, incorporados em uma estrutura que exige evidência, monitora a confiabilidade e mantém o julgamento humano no comando. Se construídos e governados com cuidado, esses ajudantes de IA poderiam gradualmente deslocar a educação médica da memorização simples para um aprendizado mais interativo e gerativo — sem perder de vista o objetivo final: cuidados mais seguros para pacientes reais.
Citação: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2
Palavras-chave: IA na educação médica, modelos de linguagem de grande porte, desempenho no USMLE, exame nacional de licenciamento médico da China, estrutura de verificação de fatos