Clear Sky Science · es

Comparación del grado de concordancia entre grandes modelos de lenguaje y las conclusiones publicadas de ensayos clínicos en cuatro plataformas de inteligencia artificial

· Volver al índice

Por qué esto importa para la atención sanitaria cotidiana

Los médicos dependen de ensayos clínicos amplios para decidir qué tratamientos son seguros y eficaces. Al mismo tiempo, las nuevas herramientas de inteligencia artificial están mejorando en la lectura y el resumen de la investigación médica. Este estudio plantea una pregunta simple pero importante para pacientes y clínicos: cuando estas herramientas leen los mismos ensayos que expertos humanos, ¿llegan a las mismas conclusiones de fondo sobre qué funciona y qué no?

Cómo evaluaron los investigadores las herramientas de IA

El equipo se centró en 20 ensayos clínicos bien conocidos publicados en el New England Journal of Medicine, que abarcan cardiopatía, accidente cerebrovascular, diabetes, cáncer y neurocirugía. Estos ensayos se eligieron porque estaban cuidadosamente diseñados y reportados con claridad, lo que los convierte en un buen banco de pruebas. En lugar de proporcionar los artículos completos a los sistemas de IA, los investigadores entregaron solo las tablas y figuras que contenían los números, como tasas de eventos y gráficos de resultados. Esto obligó a las herramientas a apoyarse en los datos en sí en lugar de limitarse a copiar los resúmenes escritos por los autores.

Figure 1. Cómo distintas herramientas de IA leen los mismos ensayos médicos y se alinean con las conclusiones de los médicos.
Figure 1. Cómo distintas herramientas de IA leen los mismos ensayos médicos y se alinean con las conclusiones de los médicos.

Qué se pidió a los sistemas de IA

Se probaron cuatro modelos de lenguaje ampliamente usados: ChatGPT, Gemini, Grok3 y Claude. Cada modelo recibió el mismo prompt estandarizado, pidiéndole que interpretara los datos de cinco maneras. Los modelos debían explicar los hallazgos generales, interpretar las estadísticas, conectar los resultados con la atención al paciente, señalar las limitaciones del estudio y sugerir cómo podrían aplicarse los hallazgos en la práctica. Dos analistas entrenados compararon luego cada respuesta de la IA con el artículo original y puntuaron el rendimiento en cada una de estas cinco áreas en una escala de cero a cinco.

Qué tan bien coincidió la IA con las conclusiones humanas

ChatGPT mostró la mayor concordancia con las conclusiones publicadas del ensayo, obteniendo una puntuación mediana perfecta de 25 sobre 25 en los 20 ensayos. Gemini le siguió con 21 de 25, mientras que Grok3 y Claude quedaron rezagados con puntuaciones medianas de 18 y 17. Las cuatro herramientas rindieron mejor al describir por qué los resultados importan para los pacientes, y ChatGPT en particular obtuvo la máxima puntuación en todos los dominios. Gemini también destacó en la identificación de debilidades del estudio y posibles factores de confusión, mientras que Grok3 y Claude fueron menos fiables para reconocer limitaciones y ofrecer sugerencias prácticas de tratamiento. Los dos evaluadores humanos coincidieron estrechamente entre sí, lo que sugiere que el método de puntuación en sí era estable.

Figure 2. Visión paso a paso de cómo la IA transforma los números de los ensayos en juicios sobre los tratamientos y sus limitaciones.
Figure 2. Visión paso a paso de cómo la IA transforma los números de los ensayos en juicios sobre los tratamientos y sus limitaciones.

Precaución sobre el entrenamiento oculto y la seguridad en el mundo real

Aunque los números parecen impresionantes, los autores advierten que los resultados deben interpretarse con cautela. Los ensayos utilizados son famosos y probablemente aparecieron en los datos de entrenamiento de estos sistemas de IA. Eso significa que las herramientas pueden ya "conocer" estos estudios y podrían estar recuperando patrones que han visto antes en lugar de razonar de forma independiente a partir de las tablas suministradas. La falta de enmascaramiento sobre qué sistema produjo cada respuesta también deja margen para un sesgo humano sutil en la puntuación. Además, los ensayos elegidos tenían en su mayoría resultados claros y positivos, lo que representa un escenario óptimo en lugar de la investigación desordenada e incierta que con frecuencia guía las decisiones en el mundo real.

Qué significa esto para la atención futura

Para una persona no experta, la conclusión es que algunas herramientas de IA, en particular ChatGPT y Gemini, pueden a menudo leer datos de ensayos médicos y coincidir con las conclusiones de los expertos, al menos en estudios bien conocidos y de alta calidad. Esto sugiere que pueden ser asistentes útiles para resumir investigación compleja y organizar la evidencia, pero no están listas para reemplazar a médicos o investigadores. Su historial de entrenamiento es opaco, su rendimiento varía entre plataformas y sus respuestas no han demostrado ser seguras para tomar decisiones de tratamiento directas. Los autores sostienen que la IA debe verse como un asistente potente que puede cribar números y destacar patrones, mientras que los clínicos humanos siguen siendo responsables del juicio, la empatía y las decisiones finales sobre la atención del paciente.

Cita: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Palabras clave: grandes modelos de lenguaje, ensayos clínicos, IA médica, síntesis de evidencia, apoyo a la decisión clínica