Clear Sky Science · es

Rendimiento comparativo de modelos de lenguaje grande recientes y anteriores y de médicos residentes pediátricos en preguntas del examen de formación pediátrica

2026-04-02 · Volver al índice

Por qué importa a médicos y familias

A medida que las herramientas de inteligencia artificial comienzan a aparecer en hospitales y facultades de medicina, una pregunta clave es simple: ¿pueden estos sistemas igualar realmente el juicio de los médicos en formación, sobre todo cuando está en juego la salud infantil? Este estudio analiza cómo varios modelos de lenguaje líderes en IA rinden en preguntas de exámenes pediátricos y qué podría significar eso para la atención y la educación futuras.

Evaluando la IA con preguntas reales de examen

Los investigadores reunieron 498 preguntas de los exámenes de formación pediátrica realizados en un gran hospital infantil en Corea entre 2016 y 2023. Estos exámenes se utilizan para medir el progreso de los residentes durante sus cuatro años de formación. La mayoría de las preguntas eran de opción múltiple y cubrían una amplia variedad de especialidades, desde el cuidado neonatal y las infecciones hasta las cardiopatías y la medicina crítica. Aproximadamente una de cada cinco preguntas incluía imágenes médicas, como radiografías, estudios de imagen o fotografías clínicas, mientras que el resto se basaba solo en descripciones escritas.

Figure 1. Se comparan sistemas de IA y residentes pediátricos en preguntas escritas que evalúan conocimientos sobre la salud infantil.

Cómo se compararon personas y máquinas

Se evaluaron seis modelos de lenguaje de IA conocidos, que representaban tres familias principales de sistemas y dos generaciones por cada familia: versiones anteriores y versiones más recientes con capacidades de visión. A los modelos se les entregaron los cuadernillos completos del examen, no preguntas sueltas, y tuvieron que determinar por sí mismos qué partes eran el texto de la pregunta, cuáles eran las opciones de respuesta y cuáles eran las imágenes. Las preguntas estaban originalmente escritas en coreano con términos médicos en inglés, y se proporcionaron traducciones cuidadosamente verificadas. Tanto a los residentes como a las IAs se les calificó con las mismas reglas, contando una respuesta como correcta si coincidía con la solución oficial o con un sinónimo aceptado. Para evaluar la estabilidad de los sistemas, cada conjunto de pruebas se ejecutó cinco veces y se calculó la consistencia entre ejecuciones.

Cómo le fue a la IA frente a los residentes pediátricos

El rendimiento se resumió como la proporción de preguntas respondidas correctamente. Como era de esperar, las puntuaciones humanas aumentaron con el nivel de formación: los residentes de primer año respondieron un poco más de la mitad de las preguntas correctamente, mientras que los de cuarto año alcanzaron alrededor del 70 por ciento. Los modelos de IA más recientes obtuvieron mejores resultados en general, con una puntuación de alrededor del 78 por ciento en todas las preguntas, superando claramente a los residentes más veteranos. Las versiones anteriores de la IA rindieron a la par con los residentes sénior. Al centrarse únicamente en las preguntas basadas en texto, los modelos recientes superaron a los residentes de cuarto año por aproximadamente 10 puntos porcentuales. Los sistemas de IA también mostraron gran consistencia entre ejecuciones, con puntuaciones casi idénticas en cada repetición.

Figure 2. Los modelos de IA manejan mejor las preguntas basadas en texto que las que incluyen imágenes al responder problemas de exámenes pediátricos.

Dónde la IA aún tiene problemas con las imágenes

El panorama cambió cuando se incluyeron imágenes médicas. En las preguntas con imágenes, ninguno de los sistemas de IA superó a los residentes sénior. Los modelos más recientes lo hicieron mejor que sus predecesores y alcanzaron una precisión en torno al 70 y tantos por ciento en estos ítems visuales, pero sus resultados aún quedaron por detrás de su sólido desempeño en preguntas solo de texto. Este patrón se mantuvo a través de distintos tipos de imágenes, incluidas radiografías, estudios por imagen y fotografías clínicas, y en una amplia variedad de temas pediátricos. Los hallazgos coinciden con otras investigaciones que sugieren que, si bien los modelos de lenguaje son fuertes leyendo y razonando con texto, su capacidad para interpretar imágenes médicas, especialmente en pediatría, sigue siendo limitada.

Qué significa esto para la atención y la formación

Los autores sostienen que estos resultados son esperanzadores para la educación pero prudentes en cuanto al uso clínico directo. Las puntuaciones altas y estables en preguntas escritas sugieren que tales sistemas podrían servir como útiles compañeros de estudio, proporcionando a los residentes pediátricos preguntas de práctica rápidas y explicaciones. Sin embargo, el éxito en pruebas de opción múltiple no garantiza un desempeño seguro con pacientes reales, donde la información es más desordenada, las decisiones son complejas y la interpretación de imágenes es crítica. En resumen, las herramientas multimodales de IA actuales ya pueden rivalizar con residentes sénior en exámenes pediátricos escritos, pero aún se quedan cortas en tareas con muchas imágenes y no están listas para reemplazar el juicio humano en la clínica.

Cita: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Palabras clave: pediatría, modelos de lenguaje grande, exámenes médicos, soporte a la decisión clínica, educación médica