Clear Sky Science · pt

Um benchmark em grande escala para avaliar modelos de linguagem grandes na resposta a perguntas médicas em romeno

2026-02-21 · Voltar ao índice

Por que isso importa para saúde e tecnologia

Muitas pessoas recorrem hoje a ferramentas online e chatbots para obter informações sobre saúde, mas a maioria desses sistemas funciona melhor em inglês e tem dificuldades com prontuários médicos locais. Este artigo aborda essa lacuna para a Romênia, onde médicos escrevem resumos de caso longos e complexos em romeno e precisam de assistentes digitais confiáveis para responder rapidamente a perguntas sobre pacientes com câncer. Os autores apresentam o MedQARo, um novo recurso que permite aos pesquisadores testar e aprimorar seriamente modelos de linguagem grandes para que compreendam melhor notas clínicas reais em romeno.

Um novo banco de perguntas construído a partir de pacientes reais

O núcleo do estudo é o MedQARo, uma coleção muito grande de 105.880 pares pergunta–resposta vinculados a 1.242 pacientes com câncer. Em vez de traduzir dados em inglês, a equipe partiu do zero com resumos de caso originais em romeno, principalmente de câncer de mama e de pulmão, além de vários outros tipos de tumor. Sete especialistas e residentes em oncologia passaram quase 3.000 horas lendo esses documentos e escrevendo respostas para perguntas médicas cuidadosamente elaboradas. Algumas perguntas são sim/não, outras extraem detalhes específicos e algumas exigem combinar pistas para inferir estágios ou cronogramas de tratamento. Todos os dados dos pacientes foram totalmente anonimados e aprovados por comitês de ética.

Avaliando IA na linguagem médica local

Usando o MedQARo, os autores avaliaram várias famílias de modelos de linguagem grandes, incluindo dois ajustados para o romeno em geral, um projetado para lidar com textos muito longos e outro treinado com material médico em inglês. Eles também os compararam com dois modelos comerciais poderosos acessados por APIs pagas. Cada modelo teve que ler a pergunta e um trecho do resumo clínico e então gerar a resposta. Os pesquisadores analisaram não só correspondências exatas, mas também com que frequência os modelos capturavam as palavras-chave e quão bem lidavam com a flexibilidade da redação em romeno, usando quatro medidas de pontuação distintas.

Modelos ajustados superam gigantes “prontos para uso”

No geral, modelos usados diretamente “prontos para uso” tiveram desempenho ruim no MedQARo, mesmo quando eram fortes em inglês ou tinham alguma exposição ao romeno. Baselines simples que sempre previam a resposta mais comum às vezes chegaram quase ao mesmo resultado que esses sistemas zero‑shot. No entanto, quando os pesquisadores fine‑tunaram os modelos no novo conjunto de dados, o desempenho subiu dramaticamente. O melhor sistema, um modelo adaptado ao romeno chamado RoMistral‑7B, alcançou uma pontuação F1 de cerca de 0,67 em tipos de câncer e hospitais familiares, superando claramente todos os outros modelos de código aberto e comerciais. Ainda assim, mesmo esse líder errou mais de um terço das perguntas, mostrando a exigência do benchmark.

Testando a generalização entre clínicas e tipos de câncer

Para ver se esses sistemas resistiam a novas situações, a equipe construiu um conjunto de teste mais difícil a partir de um centro médico diferente e de tipos de câncer não vistos durante o treinamento. Nesse cenário cross‑domain, o desempenho de todos os modelos caiu, muitas vezes de forma acentuada, com o melhor modelo ajustado respondendo corretamente bem abaixo da metade das vezes. Modelos treinados em textos biomédicos em inglês não transferiram automaticamente bem para notas em romeno, e simplesmente fornecer aos modelos uma fatia muito maior do documento clínico também não ajudou muito. De fato, focar na primeira parte do resumo frequentemente funcionou melhor do que inserir todo o registro longo, sugerindo que mais contexto pode confundir em vez de esclarecer.

O que isso significa para a IA clínica no futuro

Para o leitor leigo, a conclusão é que construir IA médica segura e útil em línguas como o romeno exige mais do que apenas conectar dados locais a um grande chatbot centrado no inglês. Benchmarks cuidadosamente elaborados e específicos por idioma, como o MedQARo, revelam tanto o potencial quanto os limites dos sistemas atuais. Eles mostram que modelos pequenos e de código aberto, quando fine‑tunados com dados locais de alta qualidade, podem superar modelos gerais muito maiores operando na nuvem. Ao mesmo tempo, as pontuações moderadas, especialmente em hospitais e cânceres novos, alertam que as ferramentas de hoje não estão prontas para substituir o julgamento humano. Em vez disso, o MedQARo oferece uma base sólida para a próxima geração de assistentes clínicos que podem ajudar médicos romenos a navegar por prontuários complexos de câncer, mantendo a segurança e a privacidade dos pacientes no centro.

Citação: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

Palavras-chave: resposta a perguntas médicas, IA em língua romena, registros clínicos de câncer, modelos de linguagem grandes, benchmark MedQARo