Clear Sky Science · pt

Desempenho comparativo de modelos de linguagem grandes recentes e anteriores e de residentes pediátricos em questões do exame de treinamento pediátrico

2026-04-02 · Voltar ao índice

Por que isso importa para médicos e famílias

À medida que ferramentas de inteligência artificial começam a aparecer em hospitais e faculdades de medicina, uma pergunta central é simples: esses sistemas realmente podem igualar o julgamento de médicos em formação, especialmente quando a saúde de crianças está em jogo? Este estudo avalia como vários modelos de linguagem líderes em IA se saem em questões de exames pediátricos e o que isso pode significar para o cuidado e a educação futuros.

Testando IA com questões reais de exame

Os pesquisadores reuniram 498 questões de exames de treinamento pediátrico aplicados em um grande hospital infantil na Coreia entre 2016 e 2023. Esses exames são usados para avaliar o progresso dos residentes durante seus quatro anos de formação. A maioria das questões era de múltipla escolha e cobria um amplo leque de especialidades, desde cuidados neonatais e infecções até cardiopatias e cuidados críticos. Cerca de uma em cada cinco questões incluía imagens médicas, como raios-X, exames por imagem ou fotografias clínicas, enquanto o restante baseava-se apenas em descrições escritas.

Figure 1. Sistemas de IA e residentes pediátricos são comparados em questões escritas de exame que testam conhecimentos sobre a saúde infantil.

Como o estudo comparou pessoas e máquinas

Seis modelos de linguagem de IA bem conhecidos foram testados, representando três famílias principais de sistemas e duas gerações para cada família: versões anteriores e versões mais recentes com capacidades de visão. Os modelos receberam cadernos completos do exame, não questões isoladas, e tiveram de identificar por conta própria quais partes eram o texto da questão, quais eram as alternativas de resposta e quais eram as imagens. As questões foram originalmente escritas em coreano com termos médicos em inglês, e traduções cuidadosamente verificadas foram fornecidas. Tanto residentes quanto IAs foram avaliados com as mesmas regras, contando uma resposta como correta se correspondesse à solução oficial ou a um sinônimo aceito. Para verificar a estabilidade dos sistemas, cada conjunto de testes foi executado cinco vezes e a consistência entre as execuções foi calculada.

Como a IA se saiu em relação aos residentes pediátricos

O desempenho foi resumido como a proporção de questões respondidas corretamente. Como esperado, as pontuações humanas aumentaram com o nível de treinamento: residentes do primeiro ano acertaram um pouco mais da metade das questões, enquanto residentes do quarto ano chegaram a cerca de 70%. Os modelos de IA mais recentes foram ainda melhores no geral, marcando cerca de 78% em todas as questões e superando claramente os residentes mais experientes. Versões anteriores de IA tiveram desempenho equivalente ao dos residentes seniores. Quando os pesquisadores focaram apenas nas questões baseadas em texto, os modelos recentes superaram os residentes do quarto ano por aproximadamente 10 pontos percentuais. Os sistemas de IA também foram muito consistentes entre execuções, com pontuações quase idênticas a cada vez.

Figure 2. Modelos de IA lidam melhor com questões de texto do que com questões baseadas em imagem ao responder problemas de exames pediátricos.

Onde a IA ainda tem dificuldades com imagens

O quadro mudou quando imagens médicas estavam envolvidas. Em questões que incluíam imagens, nenhum dos sistemas de IA superou os residentes seniores. Modelos mais recentes se saíram melhor que seus predecessores e atingiram acurácia na faixa média de 70% nessas questões visuais, mas seus resultados ainda ficaram aquém do forte desempenho que mostraram em questões apenas de texto. Esse padrão se manteve através de diferentes tipos de imagens, incluindo raios-X, exames por imagem e fotos clínicas, e ao longo de uma ampla gama de temas pediátricos. As descobertas ecoam outras pesquisas que sugerem que, enquanto modelos de linguagem são fortes na leitura e no raciocínio com texto, sua capacidade de entender imagens médicas, especialmente em crianças, continua limitada.

O que isso significa para o cuidado e o treinamento

Os autores argumentam que esses resultados são animadores para a educação, mas cautelosos para o uso clínico direto. Pontuações altas e estáveis em questões escritas sugerem que tais sistemas poderiam servir como parceiros de estudo úteis, oferecendo a residentes pediátricos perguntas práticas rápidas e explicações. No entanto, o sucesso em testes de múltipla escolha não garante desempenho seguro em pacientes reais, onde a informação é mais desordenada, as decisões são complexas e a interpretação de imagens é crítica. Em suma, as ferramentas multimodais de IA atuais já podem rivalizar com residentes seniores em exames escritos pediátricos, mas ainda ficam aquém em tarefas com muitas imagens e não estão prontas para substituir o julgamento humano na clínica.

Citação: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Palavras-chave: pediatria, modelos de linguagem grande, exames médicos, suporte à decisão clínica, educação médica