Clear Sky Science · es

Evaluación de tres chatbots de inteligencia artificial para generar preguntas de opción múltiple en hematología clínica para estudiantes de medicina

· Volver al índice

Preguntas de examen más inteligentes para los médicos del mañana

Los tests de opción múltiple pueden no parecer emocionantes, pero moldean silenciosamente las competencias de los futuros médicos. Cada pregunta en un examen puede orientar la forma en que los estudiantes piensan sobre pacientes reales. Este estudio plantea una cuestión oportuna: ¿pueden los chatbots modernos de inteligencia artificial ayudar a docentes de medicina con poco tiempo a redactar buenas preguntas de examen sobre enfermedades de la sangre más rápido, sin sacrificar calidad ni seguridad?

Cómo ayudó la IA a crear preguntas de examen

Los investigadores se centraron en tres chatbots de IA de uso extendido, todos diseñados para generar texto. Pidieron a cada sistema que redactara 50 preguntas de opción múltiple en hematología, el campo que estudia trastornos sanguíneos como la anemia y la leucemia. Las preguntas debían abarcar cinco temas comunes que aparecen en exámenes médicos y en la práctica clínica: pancitopenia (conteos bajos de todas las células sanguíneas), anemia, trombocitopenia (plaquetas bajas) y dos grupos de neoplasias hematológicas llamadas síndromes mielo- y linfoproliferativos. En total, los chatbots crearon 150 preguntas en menos de medio minuto por sistema: un ahorro de tiempo enorme en comparación con redactarlas a mano.

Figure 1
Figure 1.

Poniendo las preguntas escritas por IA bajo el microscopio

La rapidez por sí sola carece de sentido si las preguntas son erróneas, confusas o injustas. Para comprobar la calidad, tres docentes experimentados en hematología —que desconocían qué chatbot había generado cada pregunta— evaluaron cada ítem usando una lista de verificación detallada. Valorarion la precisión científica, la relevancia clínica, la claridad de la redacción, el realismo de las opciones incorrectas y la calidad global con una escala de cinco puntos. También juzgaron si cada pregunta tenía el nivel de dificultad adecuado para estudiantes de medicina y si podía discriminar entre alumnos más fuertes y más débiles. Las preguntas que alcanzaron al menos 15 de 25 puntos se consideraron aceptables para su uso; las demás necesitaban revisión o rechazo.

¿Qué chatbot fue el mejor?

Los tres sistemas produjeron mayoritariamente preguntas sólidas, pero un modelo destacó. Según las valoraciones de los expertos, este chatbot obtuvo las puntuaciones más altas en precisión, relevancia clínica y plausibilidad de las opciones incorrectas. Las 50 preguntas que generó alcanzaron el umbral de aceptación y ninguna requirió cambios. Los otros dos modelos también funcionaron bien: más de nueve de cada diez de sus preguntas fueron lo suficientemente buenas pero necesitaron retoques menores, con frecuencia porque una opción incorrecta era demasiado evidente o algún detalle podía expresarse con más claridad. En conjunto, los expertos coincidieron en que las tres herramientas pueden generar con rapidez material de examen muy cercano a estar listo para el aula.

Figure 2
Figure 2.

Habilidades de razonamiento, no solo memorización

El equipo también investigó qué tipo de pensamiento exigían estas preguntas escritas por IA a los estudiantes. Usando la taxonomía de Bloom —un marco que los educadores emplean para clasificar habilidades mentales— agruparon las preguntas en conocimientos y comprensión simples frente a habilidades de orden superior como aplicar hechos, analizar situaciones y evaluar opciones. Sorprendentemente, los chatbots generaron mayoritariamente preguntas de orden superior. En un modelo, más del 90% de los ítems requerían que los estudiantes razonaran sobre escenarios clínicos en lugar de limitarse a recordar hechos. Las preguntas de recuerdo básico fueron relativamente escasas en los tres sistemas. Este patrón sugiere que los grandes modelos de lenguaje, entrenados con enormes cantidades de texto interconectado, tienden de forma natural hacia escenarios ricos en contexto y resolución de problemas en lugar de preguntas estilo tarjetas de memorización.

Promesa, límites y la necesidad de socios humanos

A pesar de estas fortalezas, el estudio puso al descubierto lagunas importantes. Ninguno de los chatbots propuso de forma espontánea preguntas basadas en imágenes, que son cruciales en enfermedades sanguíneas donde los médicos deben interpretar láminas al microscopio y gráficos de laboratorio. Cuando se les pidió directamente ítems con imágenes, dos sistemas admitieron que no podían proporcionarlos y uno produjo un intento de baja calidad. El estudio también se basó en la opinión de expertos en lugar de datos reales de exámenes con estudiantes, por lo que no puede probar completamente cómo funcionarían estas preguntas en pruebas reales. Los autores subrayan que los docentes aún deben verificar los hechos, pulir la redacción y asegurarse de que los conceptos básicos clave estén adecuadamente cubiertos.

Qué significa esto para la futura formación médica

Para el lector no especializado, la conclusión es que la IA no está reemplazando a los docentes de medicina, pero se está convirtiendo en un asistente poderoso. En este estudio, los chatbots generaron rápidamente preguntas mayoritariamente precisas y clínicamente realistas que ayudan a los estudiantes a practicar la toma de decisiones en trastornos hematológicos. Un modelo en particular produjo preguntas de tan alta calidad que los expertos las usarían con pocos o ningún cambio. Aun así, las máquinas descuidaron comprobaciones de conocimiento más sencillas y no pudieron manejar material visual por sí solas. Los autores concluyen que el mejor enfoque es una asociación: la IA realiza el trabajo pesado de redactar preguntas variadas, mientras que los expertos humanos guían los avisos, completan los aspectos básicos que falten, verifican el contenido y mantienen el material al día con las guías médicas cambiantes.

Cita: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Palabras clave: educación médica, inteligencia artificial, hematología, preguntas de opción múltiple, chatbots