Clear Sky Science · es

MediQAl: un conjunto de preguntas médicas en francés para evaluar conocimiento y razonamiento

· Volver al índice

Por qué importa evaluar la IA médica en francés

Hoy en día la mayoría de las personas acude a herramientas en línea, a veces impulsadas por inteligencia artificial, para obtener información sobre salud. Sin embargo, la gran mayoría de estos sistemas se entrena y se prueba en inglés, aunque millones de pacientes y médicos trabajen en otros idiomas. Este artículo presenta MediQAl, una amplia colección de preguntas de exámenes médicos franceses diseñada para mostrar hasta qué punto los sistemas de IA actuales entienden y razonan sobre medicina en francés y en qué áreas todavía fallan.

Un nuevo conjunto de preguntas reales de exámenes médicos

El núcleo de MediQAl es un tesoro de 32.603 preguntas extraídas de los exámenes nacionales de obtención de la licencia médica de Francia. Estas pruebas de alto riesgo, redactadas por especialistas académicos y hospitalarios, se diseñan para reflejar la práctica clínica real: combinan hechos de libro de texto con escenarios del mundo real en los que los síntomas se desarrollan con el tiempo y las pistas importantes pueden estar solo implícitas. El formato de los exámenes franceses añade dificultad adicional para las máquinas: las preguntas son largas, las oraciones complejas y las trampas suelen basarse en negaciones o excepciones como «todas las siguientes son verdaderas, excepto...». Al preservar esta estructura auténtica, MediQAl ofrece un terreno de prueba exigente y realista para evaluar la IA médica más allá de ejemplos simplificados de aula.

Figura 1
Figura 1.

Tres formas de interrogar a un médico IA

MediQAl está organizado en tres tipos de tareas que reproducen cómo se evalúa a los médicos. El primer y mayor grupo son preguntas de opción múltiple con una sola respuesta correcta, donde solo una de las cinco opciones es válida. El segundo grupo permite varias opciones correctas, obligando a los sistemas a ponderar combinaciones de hallazgos del modo en que un médico consideraría varias complicaciones posibles a la vez. El tercer grupo consiste en preguntas abiertas y breves donde el sistema debe generar su propia respuesta concisa en lugar de elegir de una lista. Cada pregunta está etiquetada como evaluación de comprensión directa (recordar o aplicar hechos conocidos) o de razonamiento verdadero (pensamiento en varios pasos, combinación de pistas o manejo de incertidumbre). Esta estructura permite a los investigadores sondear no solo lo que una IA «sabe», sino cómo razona un caso.

Cómo se construyó y verificó el conjunto

Para ensamblar MediQAl, el autor raspó sitios de formación y materiales oficiales donde estudiantes y docentes comparten preguntas de exámenes pasados. Las preguntas de opción múltiple se extrajeron automáticamente, mientras que las preguntas abiertas, menos estructuradas, requirieron una mezcla de reconocimiento de patrones y curación manual desde páginas web y PDF. El equipo eliminó preguntas con respuestas faltantes, imágenes o tablas, respuestas de texto libre muy largas y casi duplicados detectados mediante medidas de similitud tanto en las preguntas como en las soluciones. Para concentrar el material más difícil en el conjunto de prueba, se pidió a tres modelos de IA más pequeños que respondieran las preguntas: cualquier ítem que al menos un modelo resolviera se consideró demasiado fácil para la prueba y se redirigió a entrenamiento o validación. Un experto médico revisó después una muestra estratificada de 150 preguntas, confirmando que la gran mayoría eran sólidas desde el punto de vista médico y estaban planteadas adecuadamente, con una pequeña fracción señalada como desactualizada o ambigua.

Poner a prueba a los principales modelos de IA

Con MediQAl disponible, el estudio evaluó 14 modelos de lenguaje grande, que van desde sistemas comerciales ampliamente conocidos hasta modelos de código abierto afinados para medicina o para razonamiento paso a paso. Todos se probaron en un entorno «zero‑shot», es decir, se les pidió que respondieran sin entrenamiento específico para la tarea. Los resultados muestran pautas claras. Primero, el rendimiento es consistentemente mayor en preguntas de recuerdo simple que en las que requieren razonamiento, en todos los modelos y tipos de tarea. En promedio, la precisión en preguntas de razonamiento cae varios puntos respecto a las de comprensión, con la brecha especialmente amplia en respuestas abiertas. Segundo, los modelos entrenados explícitamente para razonar suelen superar a sus contrapartes «vainilla», particularmente en las preguntas más difíciles, pero aún están muy lejos de la fiabilidad esperada de clínicos en ejercicio. Tercero, el éxito varía ampliamente según la especialidad: asignaturas como genética, dermatología o bacteriología se manejan relativamente bien, mientras que áreas como psiquiatría, epidemiología, medicina del trabajo y casos complejos abiertos siguen siendo un reto.

Figura 2
Figura 2.

Qué significa esto para pacientes y profesionales

MediQAl cubre una brecha importante al ofrecer un banco de pruebas grande y cuidadosamente curado que evalúa la IA médica en francés y en 41 especialidades, usando preguntas diseñadas para futuros médicos y no para máquinas. Los hallazgos muestran que, si bien los mejores sistemas pueden a menudo recordar hechos correctamente y a veces igualar respuestas de estilo examen, siguen teniendo dificultades cuando se les pide razonar sobre historias clínicas matizadas, especialmente fuera del inglés y en ciertos dominios. Para pacientes y proveedores de salud, el mensaje es claro: las herramientas actuales de IA pueden ser asistentes útiles, pero no están listas para reemplazar el juicio humano, y sus límites dependen en gran medida del idioma y de la especialidad. Para investigadores y reguladores, MediQAl ofrece un banco de pruebas público y reutilizable para seguir el progreso hacia una IA médica segura y equitativa que funcione tan bien en francés como en inglés.

Cita: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y

Palabras clave: respuestas a preguntas médicas, IA en lengua francesa, razonamiento clínico, modelos de lenguaje grandes, exámenes médicos