Clear Sky Science · pt
Avaliação de três chatbots de inteligência artificial para gerar questões de múltipla escolha em hematologia clínica para estudantes de medicina
Perguntas de prova mais inteligentes para os médicos de amanhã
Testes de múltipla escolha podem não parecer empolgantes, mas modelam discretamente as habilidades dos futuros médicos. Cada pergunta de um exame pode orientar a forma como os estudantes pensam sobre pacientes reais. Este estudo faz uma pergunta oportuna: chatbots modernos de inteligência artificial podem ajudar professores de medicina atarefados a escrever boas questões sobre doenças do sangue mais rapidamente, sem sacrificar qualidade ou segurança?
Como a IA ajudou a criar questões de prova
Os pesquisadores se concentraram em três chatbots de IA amplamente usados, todos projetados para gerar texto. Eles pediram a cada sistema que escrevesse 50 questões de múltipla escolha em hematologia, o campo que estuda distúrbios do sangue como anemia e leucemia. As questões deveriam abranger cinco temas comuns que aparecem em exames médicos e na prática clínica: pancitopenia (contagens baixas de todas as células sanguíneas), anemia, trombocitopenia (plaquetas baixas) e dois grupos de cânceres do sangue chamados síndromes mieloproliferativas e linfoproliferativas. No total, os chatbots criaram 150 questões em menos de meio minuto por sistema — uma economia de tempo enorme em comparação com escrevê-las manualmente. 
Submetendo as perguntas geradas pela IA ao escrutínio
A velocidade por si só é irrelevante se as questões estiverem erradas, confusas ou injustas. Para verificar a qualidade, três professores experientes de hematologia — que não sabiam qual chatbot escreveu qual pergunta — pontuaram cada item usando um checklist detalhado. Eles avaliaram a precisão científica, relevância clínica, clareza da redação, verossimilhança das alternativas incorretas e qualidade geral em uma escala de cinco pontos. Também julgaram se cada questão tinha o nível de dificuldade adequado para estudantes de medicina e se seria capaz de distinguir alunos fortes dos mais fracos. Questões que alcançaram pelo menos 15 de 25 pontos foram consideradas aceitáveis para uso; outras precisavam de revisão ou rejeição.
Qual chatbot foi o melhor?
Todos os três sistemas produziram, em sua maioria, questões sólidas, mas um modelo sobressaiu. Nas avaliações dos especialistas, esse chatbot obteve as maiores pontuações em precisão, relevância clínica e alternativas erradas plausíveis. Todas as suas 50 questões atingiram o limiar de aceitação, e nenhuma precisou de alterações. Os outros dois modelos também se saíram bem: mais de nove em cada dez de suas questões eram adequadas, mas exigiam pequenos ajustes, frequentemente porque uma opção incorreta era obviamente errada ou algum detalhe poderia ficar mais claro. No geral, os especialistas concordaram que as três ferramentas podem gerar rapidamente material de exame muito próximo do pronto para uso em sala de aula. 
Habilidades de pensamento, não apenas memorização
A equipe também investigou que tipo de raciocínio essas questões geradas pela IA exigiam dos estudantes. Usando a taxonomia de Bloom — um quadro que educadores usam para classificar habilidades mentais — eles agruparam as questões em conhecimento e compreensão simples versus habilidades de ordem superior, como aplicar fatos, analisar situações e avaliar opções. Surpreendentemente, os chatbots produziram sobretudo questões de ordem superior. Para um dos modelos, mais de 90% dos itens exigiam que os estudantes raciocinassem sobre cenários clínicos em vez de apenas recordar fatos. Perguntas de memorização básica foram relativamente raras nos três sistemas. Esse padrão sugere que grandes modelos de linguagem, treinados em enormes quantidades de texto conectado, tendem naturalmente a favorecer cenários ricos em contexto e resolução de problemas em vez de perguntas no estilo flashcard.
Promessa, limites e a necessidade de parceiros humanos
Apesar dessas qualidades, o estudo revelou lacunas importantes. Nenhum dos chatbots propôs espontaneamente questões baseadas em imagens, que são cruciais em doenças do sangue, onde os médicos precisam interpretar lâminas de microscópio e gráficos laboratoriais. Quando solicitados diretamente a criar itens com imagens, dois sistemas admitiram não poder fornecê-los e um produziu uma tentativa de baixa qualidade. O estudo também se apoiou na opinião de especialistas em vez de dados reais de exames com estudantes, de modo que não pode provar totalmente quão bem essas questões funcionariam em testes ao vivo. Os autores enfatizam que os professores ainda precisam checar os fatos, refinar a redação e garantir que conceitos básicos essenciais sejam adequadamente cobrados.
O que isso significa para a formação médica futura
Para o leitor leigo, a conclusão é que a IA não está substituindo os professores de medicina, mas está se tornando um assistente poderoso. Neste estudo, os chatbots geraram rapidamente questões em sua maioria precisas e clinicamente realistas que ajudam os estudantes a praticar a tomada de decisão em distúrbios do sangue. Um modelo em particular produziu questões de qualidade tão alta que os especialistas as usariam com pouca ou nenhuma alteração. Ainda assim, as máquinas negligenciaram verificações de conhecimento mais simples e não conseguiram lidar com material visual por conta própria. Os autores concluem que a melhor abordagem é uma parceria: a IA faz o trabalho pesado de rascunhar questões variadas, enquanto especialistas humanos orientam os prompts, preenchem lacunas de conhecimentos básicos, verificam o conteúdo e acompanham a evolução das diretrizes médicas.
Citação: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x
Palavras-chave: educação médica, inteligência artificial, hematologia, questões de múltipla escolha, chatbots