Clear Sky Science · pt
MediQAl: um conjunto de perguntas médicas em francês para avaliar conhecimento e raciocínio
Por que testar IA médica em francês é importante
Hoje em dia a maioria das pessoas recorre a ferramentas online, por vezes movidas por inteligência artificial, para obter informação sobre saúde. Ainda assim, a grande maioria desses sistemas é treinada e testada em inglês, apesar de milhões de pacientes e profissionais trabalharem em outras línguas. Este artigo apresenta o MediQAl, uma grande coleção de questões de exames médicos franceses projetada para revelar o quanto os sistemas de IA atuais realmente compreendem e raciocinam sobre medicina em francês, e onde ainda falham.
Um novo conjunto de questões reais de exames médicos
O núcleo do MediQAl é um acervo de 32.603 questões extraídas dos exames nacionais de obtenção do título médico da França. Esses testes de alto risco, redigidos por especialistas acadêmicos e hospitalares, foram concebidos para espelhar a prática clínica real: misturam fatos de livros-texto com cenários do mundo real, em que os sintomas se desenrolam ao longo do tempo e pistas importantes podem estar apenas implícitas. O estilo dos exames franceses acrescenta dificuldade extra para máquinas: as perguntas são longas, as frases são complexas e armadilhas frequentemente dependem de negações ou exceções como “todas as seguintes são verdadeiras, exceto...”. Ao preservar essa estrutura autêntica, o MediQAl oferece um campo de provas exigente e realista para testar IA médica além de exemplos simplificados de sala de aula.

Três formas de questionar um médico IA
O MediQAl está organizado em três tipos de tarefa que refletem como os médicos são avaliados. O primeiro e maior grupo são questões de múltipla escolha de resposta única, em que apenas uma das cinco opções é correta. O segundo grupo permite várias opções corretas, forçando os sistemas a ponderar combinações de achados da forma que um médico consideraria múltiplas complicações possíveis ao mesmo tempo. O terceiro grupo consiste em perguntas abertas e curtas, onde o sistema deve gerar sua própria resposta breve em vez de escolher numa lista. Cada questão é marcada como testando compreensão direta (recordar ou aplicar fatos conhecidos) ou raciocínio verdadeiro (pensamento em múltiplas etapas, combinação de pistas ou lidar com incerteza). Essa estrutura permite aos pesquisadores investigar não apenas o que uma IA “sabe”, mas como ela pensa sobre um caso.
Como o conjunto de dados foi construído e verificado
Para montar o MediQAl, o autor raspou sites de treinamento e materiais oficiais onde estudantes e professores compartilham questões de exames passados. As questões de múltipla escolha foram extraídas automaticamente, enquanto as perguntas abertas, menos estruturadas, exigiram uma mistura de correspondência por padrões e curadoria manual a partir de páginas web e PDFs. A equipe removeu questões com respostas faltantes, imagens ou tabelas, respostas de texto livre muito longas e quase-duplicatas detectadas usando medidas de similaridade tanto nas perguntas quanto nas soluções. Para concentrar o material mais difícil na divisão de teste, três modelos de IA menores foram solicitados a responder às questões: qualquer item que ao menos um modelo resolvesse foi considerado fácil demais para testes e redirecionado para treino ou validação. Um especialista médico então revisou uma amostra estratificada de 150 questões, confirmando que a grande maioria era medicamente sólida e adequadamente formulada, com uma pequena fração sinalizada como desatualizada ou ambígua.
Submetendo modelos líderes de IA ao teste
Com o MediQAl em mãos, o estudo avaliou 14 grandes modelos de linguagem, que vão de sistemas comerciais amplamente conhecidos a modelos de código aberto ajustados para medicina ou para raciocínio passo a passo. Todos foram testados em configuração “zero-shot”, ou seja, foram simplesmente solicitados a responder sem treinamento específico para a tarefa. Os resultados mostram padrões claros. Primeiro, o desempenho é consistentemente maior em perguntas de recordação simples do que nas que exigem raciocínio, em todos os modelos e tipos de tarefa. Em média, a acurácia em perguntas de raciocínio cai vários pontos em comparação com questões de compreensão, com a diferença especialmente grande nas respostas abertas. Segundo, modelos treinados explicitamente para raciocinar tendem a superar suas versões “vanilla”, particularmente nas questões mais difíceis, mas ainda ficam bem aquém da confiabilidade esperada de clínicos em exercício. Terceiro, o sucesso varia amplamente por especialidade: assuntos como genética, dermatologia ou bacteriologia são tratados relativamente bem, enquanto áreas como psiquiatria, epidemiologia, medicina do trabalho e casos abertos complexos continuam desafiadoras.

O que isso significa para pacientes e profissionais
O MediQAl preenche uma lacuna importante ao oferecer um benchmark grande e cuidadosamente curado que testa IA médica em francês e em 41 especialidades, usando questões projetadas para futuros médicos em vez de para máquinas. As descobertas mostram que, embora os melhores sistemas muitas vezes consigam recordar fatos corretamente e às vezes igualem respostas no estilo de exame, ainda têm dificuldade quando exigidos a raciocinar por histórias clínicas nuançadas, especialmente fora do inglês e em certos domínios. Para pacientes e prestadores de cuidados de saúde, a mensagem é clara: as ferramentas atuais de IA podem ser assistentes úteis, mas não estão prontas para substituir o julgamento humano, e seus limites dependem fortemente da língua e da especialidade. Para pesquisadores e reguladores, o MediQAl fornece um ambiente de testes público e reutilizável para acompanhar o progresso em IA médica segura e equitativa que funcione tão bem em francês quanto em inglês.
Citação: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
Palavras-chave: respostas a perguntas médicas, IA em língua francesa, raciocínio clínico, modelos de linguagem grande, exames médicos