Clear Sky Science · es

Rendimiento de DeepSeek en la generación de preguntas de exámenes durante la formación de residentes de radiología

2026-03-24 · Volver al índice

Por qué importan preguntas de examen más inteligentes

Los médicos en formación en imagen médica realizan pruebas frecuentes para comprobar qué saben y cuán bien pueden atender a los pacientes. Redactar esas preguntas consume mucho tiempo de expertos, y las escuelas se preguntan si las herramientas de inteligencia artificial pueden ayudar. Este estudio examinó si un modelo de lenguaje grande llamado DeepSeek podría compartir parte de ese trabajo redactando preguntas de opción múltiple para residentes de radiología, y en qué puntos aún se necesita claramente a expertos humanos.

Figure 1. La IA ayuda a los profesores de radiología a crear preguntas de examen mientras los médicos en formación las usan para aprender de forma más eficaz.

Qué se plantearon aprender los investigadores

El equipo en China se centró en una parte clave de la formación en radiología: los exámenes de evaluación interna que siguen el progreso de los residentes cada año. Compararon dos conjuntos coincidentes de preguntas de examen. Un conjunto fue redactado por radiólogos experimentados siguiendo estándares nacionales de formación. El otro conjunto fue generado en chino por el modelo de lenguaje DeepSeek usando indicaciones cuidadosamente diseñadas que especificaban el tema, el nivel del residente y el tipo de pregunta. Todas las preguntas debían seguir las mismas normas y fueron revisadas por un radiólogo sénior para asegurar que fueran exactas y justas antes de su uso.

Cómo funcionó el experimento del examen

De esas bancas de preguntas, los investigadores seleccionaron al azar 14 preguntas de IA y 14 preguntas de expertos y las mezclaron en un examen en línea de 28 ítems. Cuarenta residentes de radiología de segundo o tercer año realizaron este examen a libro cerrado. Para cada ítem, eligieron una respuesta, adivinaron si la pregunta provenía de DeepSeek o de un experto humano, y la valoraron en dificultad, ajuste al currículo, calidad general y cuán realista les parecía la historia clínica. Este diseño permitió al equipo comparar no solo las puntuaciones sino también la percepción de las preguntas por parte de los aprendices.

Figure 2. Comparar preguntas escritas por IA y por humanos para hechos sencillos frente a casos clínicos complejos para mostrar dónde funciona mejor cada uno.

Dónde la IA iguala a los redactores humanos

En el examen global, los residentes acertaron aproximadamente la misma proporción de preguntas tanto si fueron redactadas por DeepSeek como por expertos, y no fueron muy buenos distinguiendo la fuente de cada ítem. Para el tipo de pregunta más simple, orientada a hechos básicos y reglas claras, las preguntas de DeepSeek se comportaron de forma similar a las redactadas por humanos. Medidas objetivas usadas en evaluación, como la capacidad de una pregunta para diferenciar estudiantes más fuertes de más débiles, también sugirieron que estos ítems de conocimiento básico generados por IA eran en general sólidos. Esto significa que la IA podría ayudar a construir grandes bancos de preguntas sencillas que refuercen conceptos centrales, aliviando la carga de trabajo de los educadores.

Dónde el juicio humano sigue liderando

El panorama cambió cuando las preguntas implicaban relatos clínicos más ricos y decisiones más difíciles. Para preguntas de complejidad media con breves escenas clínicas, los residentes respondieron correctamente a tasas similares en preguntas de IA y de expertos, pero valoraron las versiones de los expertos como más realistas y algo más difíciles, especialmente entre residentes más senior con más experiencia clínica real. Para las preguntas más complejas, construidas en torno a series de casos y decisiones en varios pasos, los residentes obtuvieron puntuaciones claramente superiores en los ítems redactados por expertos que en las versiones de DeepSeek. Los aprendices, en particular los de los primeros años, parecieron más propensos a ser inducidos a error o confundidos por las situaciones clínicas más delgadas y menos auténticas creadas por la IA.

Cómo pueden colaborar las personas y la IA

Los autores sugieren usar un enfoque por niveles. DeepSeek y herramientas similares son aptas para redactar grandes volúmenes de preguntas básicas y bien estructuradas que cubran hechos y definiciones estándar. Los expertos humanos, a su vez, deben mantenerse a cargo de las preguntas que evalúan cómo los médicos razonan ante la incertidumbre, sopesan opciones y aplican valores en contextos clínicos reales. La IA también puede ayudar a los revisores a detectar preguntas débiles, mientras que los expertos aportan la comprensión matizada que solo proviene de atender a pacientes. Con límites claros y supervisión cuidadosa, combinar IA con criterio experto podría hacer que los exámenes médicos sean a la vez más eficientes de construir y mejores para medir lo que realmente importa.

Cita: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Palabras clave: educación en radiología, preguntas de examen, inteligencia artificial, modelos de lenguaje a gran escala, formación médica