Clear Sky Science · pt

Desempenho do DeepSeek na geração de perguntas de exames em treinamento na educação de residentes em radiologia

2026-03-24 · Voltar ao índice

Por que perguntas de teste melhores importam

Médicos em formação na área de imagem fazem testes frequentes para verificar o que sabem e quão bem conseguem cuidar de pacientes. Escrever essas perguntas exige muito tempo de especialistas, e escolas têm se perguntado se ferramentas de inteligência artificial podem ajudar. Este estudo investigou se um grande modelo de linguagem chamado DeepSeek poderia assumir parte desse trabalho ao redigir questões de múltipla escolha para residentes de radiologia, e em que pontos ainda há necessidade clara de especialistas humanos.

Figure 1. A IA ajuda professores de radiologia a criar questões de exame, enquanto médicos em formação as usam para aprender de forma mais eficaz.

O que os pesquisadores queriam descobrir

A equipe na China concentrou‑se em uma parte central do treinamento em radiologia: os exames de avaliação em serviço que acompanham o progresso anual dos residentes. Eles compararam dois conjuntos correspondentes de questões. Um conjunto foi escrito por radiologistas experientes seguindo padrões nacionais de treinamento. O outro foi gerado em chinês pelo modelo de linguagem DeepSeek usando prompts cuidadosamente elaborados que especificavam tema, nível do residente e tipo de questão. Todas as questões precisaram obedecer às mesmas regras e foram revisadas por um radiologista sênior para garantir que eram precisas e justas antes do uso.

Como funcionou o experimento do exame

Dos bancos de questões, os pesquisadores selecionaram aleatoriamente 14 questões da IA e 14 questões de especialistas e as misturaram em um único teste online com 28 itens. Quarenta residentes de radiologia do segundo ou terceiro ano fizeram este exame sem consulta a materiais. Para cada questão, eles escolheram uma resposta, chutaram se a questão vinha do DeepSeek ou de um especialista humano, e a avaliaram em dificuldade, aderência ao currículo, qualidade geral e quão realista a história clínica parecia. Esse desenho permitiu à equipe comparar não apenas as pontuações, mas também a percepção dos aprendizes sobre as questões.

Figure 2. Comparar questões escritas por IA e por humanos para fatos simples versus casos clínicos complexos, mostrando onde cada abordagem funciona melhor.

Onde a IA iguala os redatores humanos

No conjunto do exame, os residentes acertaram aproximadamente a mesma proporção de questões, quer tivessem sido escritas pelo DeepSeek ou por especialistas, e não foram muito hábeis em identificar a origem de cada item. Para o tipo de questão mais simples, voltado a fatos básicos e regras claras, os itens do DeepSeek tiveram desempenho semelhante aos escritos por humanos. Medidas objetivas usadas em testes, como a capacidade de uma questão separar alunos mais fortes dos mais fracos, também sugeriram que esses itens de conhecimento básico gerados pela IA eram, em geral, sólidos. Isso indica que a IA pode ajudar a construir grandes bancos de questões diretas que reforçam conceitos centrais, aliviando a carga de trabalho dos educadores.

Onde o julgamento humano ainda lidera

A situação mudou quando as questões envolviam narrativas clínicas mais ricas e decisões mais difíceis. Para questões de complexidade média com breves cenários clínicos, residentes responderam às questões da IA e dos especialistas com taxas semelhantes, mas avaliaram as versões feitas por especialistas como mais realistas e um pouco mais difíceis, especialmente entre residentes mais seniores com mais experiência prática. Para as questões mais complexas, construídas em torno de séries de casos em várias etapas e julgamentos clínicos, os residentes tiveram pontuações claramente maiores nas perguntas escritas por especialistas do que nas versões do DeepSeek. Os trainees, particularmente os de anos iniciais, pareceram mais propensos a serem confundidos ou induzidos em erro pelas situações clínicas mais rasas e menos autênticas criadas pela IA.

Como pessoas e IA podem trabalhar juntas

Os autores sugerem usar uma abordagem em camadas. DeepSeek e ferramentas semelhantes são adequadas para redigir grandes quantidades de questões básicas e bem estruturadas que cubram fatos e definições padrão. Especialistas humanos, por sua vez, devem permanecer responsáveis por questões que testem como médicos raciocinam diante da incerteza, pesam opções e aplicam valores em cenários clínicos reais. A IA também pode ajudar revisores a identificar questões mais fracas, enquanto os especialistas fornecem a compreensão nuançada que vem apenas do cuidado com pacientes. Com limites claros e supervisão cuidadosa, combinar IA com julgamento de especialistas pode tornar a elaboração de exames médicos mais eficiente e melhorar a medição do que realmente importa.

Citação: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Palavras-chave: educação em radiologia, questões de exame, inteligência artificial, grandes modelos de linguagem, treinamento médico