Clear Sky Science · es

Comparación del rendimiento de grandes modelos de lenguaje en la evaluación del conocimiento sobre la terapia de captura neutrónica con boro

2026-01-16 · Volver al índice

Tutores inteligentes para un nuevo tipo de radiación contra el cáncer

La terapia de captura neutrónica con boro, o BNCT por sus siglas en inglés, es un tipo emergente de tratamiento radioterapéutico que busca destruir tumores mientras preserva el tejido sano próximo. A medida que esta terapia compleja pasa de los laboratorios de investigación a los hospitales, médicos y residentes deben dominar muchos conocimientos nuevos y especializados. Este estudio plantea una pregunta de actualidad: ¿pueden los chatbots de inteligencia artificial populares de hoy ayudar a enseñar y apoyar la BNCT, y, en caso afirmativo, cuán fiables son?

¿En qué se diferencia la BNCT de la radiación convencional?

La BNCT funciona de forma muy distinta a los tratamientos estándar con rayos X o protones. Los pacientes reciben fármacos que contienen una forma especial de boro que se acumula dentro de las células tumorales. Cuando esas células se exponen después a un haz de neutrones, los átomos de boro sufren una pequeña reacción nuclear que libera partículas de corto alcance, destruyendo la célula cancerosa desde dentro y dejando en gran medida indemne al tejido cercano. Este enfoque altamente dirigido resulta especialmente prometedor para tumores de difícil tratamiento o con baja oxigenación. Hasta hace poco, la BNCT dependía de reactores nucleares como fuentes de neutrones, lo que limitaba su uso clínico. La aprobación de máquinas de BNCT basadas en aceleradores en Japón en 2020, y la apertura de nuevos centros en países como China, han convertido la BNCT en una opción realista para más pacientes y han creado una necesidad urgente de formación y certificación especializada.

Poniendo a prueba a cuatro inteligencias artificiales líderes

Para evaluar qué tan bien manejan los chatbots de propósito general los temas relacionados con la BNCT, los investigadores diseñaron una prueba de 47 preguntas que abarcaba ideas básicas, la investigación más reciente, la práctica clínica y tareas de cálculo y razonamiento. Las preguntas se redactaron tanto en chino como en inglés e incluyeron hechos simples (como definiciones) y problemas más exigentes que requerían lógica o trabajo numérico. Cuatro familias principales de IA —representadas por sistemas de uso generalizado de distintas empresas— fueron evaluadas en cinco períodos de tiempo separados, en dos idiomas y con dos modos de formulación de preguntas (preguntas directas sencillas y preguntas enmarcadas en un breve escenario clínico). Especialistas humanos en atención oncológica puntuaron cada respuesta según una clave estándar, y el equipo también registró con qué frecuencia las IAs admitían incertidumbre diciendo frases como «no lo sé».

¿Quién respondió mejor y en qué tipo de preguntas?

En términos generales, dos familias de modelos funcionaron claramente mejor que las otras dos. El sistema más potente alcanzó aproximadamente un 73 % de acierto, y el segundo mejor alrededor del 70 %, mientras que los demás modelos obtuvieron cerca del 62 % y del 56 %. Curiosamente, los de mejor rendimiento no se limitaron a sobresalir en hechos memorizados. Fueron notablemente mejores en preguntas que exigían razonamiento que en el recuerdo directo, lo que sugiere que estos sistemas son relativamente fuertes en tareas de pensamiento en varios pasos, como cálculos de dosis o problemas de planificación, dentro de este campo médico concreto. Un modelo mostró puntuaciones casi iguales en ítems de hechos y de razonamiento, mientras que otro quedó rezagado en general a pesar de rendir algo mejor en razonamiento que en hechos.

Actualizaciones, idiomas y disposición a decir «No lo sé»

Dado que los sistemas de IA se actualizan con frecuencia, los investigadores también examinaron cómo cambió el rendimiento a lo largo de cinco rondas de pruebas distribuidas desde finales de 2023 hasta mediados de 2025. Las actualizaciones de versión importantes tendieron a provocar saltos claros en la precisión, mientras que los ajustes menores dentro de la misma versión apenas supusieron diferencia. Una familia pasó de menos del 60 % a más del 80 % de acierto con el tiempo, lo que subraya la rapidez con que avanza la tecnología. Sorprendentemente, preguntar en chino o en inglés, o formular la pregunta de forma directa frente a enmarcarla en un rol clínico, tuvo efectos pequeños en comparación con las fortalezas intrínsecas de cada modelo. Más llamativas fueron las diferencias en la sinceridad de los sistemas cuando estaban equivocados. Algunos modelos admitieron incertidumbre en casi una de cada cinco respuestas incorrectas, mientras que otro rara vez lo hacía, ofreciendo con frecuencia respuestas confiadas pero erróneas.

Qué significa esto para médicos, estudiantes y pacientes

El estudio concluye que los mejores chatbots de propósito general actuales ya pueden ofrecer explicaciones y preguntas de práctica razonablemente precisas sobre BNCT, lo que los convierte en asistentes prometedores para la educación y el autoaprendizaje. Sin embargo, ninguno de los sistemas puede aún considerarse fiable para responder correctamente a todas las preguntas sobre BNCT, y sus maneras de expresar —o ocultar— la incertidumbre difieren de forma relevante para la seguridad. Por ahora, estas herramientas deben verse como asistentes inteligentes que pueden apoyar, pero no sustituir, el juicio experto. Los autores sostienen que serán necesarios modelos de IA específicos centrados en BNCT, junto con normas claras sobre cómo deben emplearse estas herramientas en clínicas y aulas, antes de que la IA pueda desempeñar un papel fiable en primera línea en esta forma altamente especializada de atención oncológica.

Cita: Shen, S., Wang, S., Gao, M. et al. Performance comparison of large language models in boron neutron capture therapy knowledge assessment. Sci Rep 16, 5321 (2026). https://doi.org/10.1038/s41598-026-36322-7

Palabras clave: terapia de captura neutrónica con boro, radiación contra el cáncer, educación médica, inteligencia artificial, grandes modelos de lenguaje