Clear Sky Science · es

Evaluación multidisciplinaria de modelos de lenguaje grandes sobre preguntas relativas a la cirugía bariátrica: un análisis comparativo de ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus y Gemini Pro

2026-04-01 · Volver al índice

Por qué esto importa para quienes consideran una cirugía para perder peso

Las personas que están pensando en una cirugía para perder peso a menudo recurren a herramientas en línea y chatbots para obtener respuestas rápidas. Este estudio plantea una pregunta sencilla pero importante: cuando los chatbots basados en grandes modelos de lenguaje responden preguntas comunes sobre cirugía bariátrica, ¿qué tan precisas y completas son sus respuestas, y pueden realmente apoyar a pacientes y clínicos?

Chatbots modernos que entran en la clínica

Los investigadores examinaron cuatro chatbots ampliamente usados basados en grandes modelos de lenguaje: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus y Gemini Pro. Se centraron en preguntas del mundo real sobre cirugía bariátrica, como quién es elegible, cómo prepararse, qué riesgos esperar y qué cambios de estilo de vida son necesarios después. A partir de un conjunto inicial de 200 preguntas recopiladas de la literatura médica, redes sociales y visitas clínicas, seleccionaron 50 que representaban mejor las inquietudes de los pacientes. Cada chatbot respondió las 50 preguntas, produciendo 200 respuestas en total que luego fueron traducidas y estandarizadas para su revisión.

Figure 1. Expertos evalúan cuatro chatbots de IA que responden preguntas comunes sobre la cirugía para perder peso, valorando su seguridad y utilidad.

Muchos expertos, no una sola perspectiva

En lugar de pedir solo a cirujanos que evaluaran las respuestas, el equipo reunió un panel multidisciplinario de siete profesionales experimentados: cuatro cirujanos bariátricos, un médico especializado en obesidad y dos dietistas. Cada experto calificó de forma independiente la precisión de cada respuesta y, para las respuestas mejores, su exhaustividad. La precisión se puntuó en una escala de tres niveles que iba desde claramente incorrecto y potencialmente dañino hasta completamente correcto. La exhaustividad se puntuó en una escala de cinco niveles que reflejaba cuánto cubría una respuesta los puntos clave, como detalles del procedimiento, riesgos y cuidados posteriores. El proceso de evaluación fue a ciegas para que los revisores no supieran qué chatbot había producido cada respuesta, y las respuestas se mezclaron y distribuyeron en varias sesiones para reducir sesgos.

Cómo se desempeñaron los chatbots

En general, los cuatro chatbots mostraron resultados mixtos. ERNIE Bot 4.0 obtuvo la puntuación media de precisión más alta al sumar las valoraciones de todos los expertos, pero ChatGPT-4 tuvo la mayor proporción de respuestas juzgadas simplemente como buenas y no recibió ninguna calificación deficiente. Claude 3 Opus tendió a ofrecer respuestas más largas y detalladas, mientras que Gemini Pro quedó muy rezagado en precisión, con menos de la mitad de sus respuestas calificadas como buenas y varias valoradas como deficientes por la mayoría de los revisores. Todos los chatbots tuvieron dificultades para proporcionar una cobertura completa de los temas: incluso las respuestas mejores alcanzaron por lo general solo niveles moderados de detalle, y ninguna ofreció de forma consistente la profundidad que las personas necesitan para tomar decisiones plenamente informadas sobre la cirugía.

Figure 2. Descripción paso a paso de cómo los chatbots generan respuestas sobre cirugía y de cómo los médicos distinguen la orientación más segura del consejo arriesgado.

Dónde flaquean las respuestas

El área más débil para todos los chatbots fue la explicación de la recuperación, los riesgos y las complicaciones. Estos temas suelen implicar matices y seguimiento a largo plazo, que las herramientas tendieron a simplificar en exceso. Algunas respuestas generaron expectativas poco realistas sobre la pérdida de peso o omitieron información de seguridad importante, mientras que otras ofrecieron consejos demasiado genéricos para ser útiles a pacientes reales. Cuando los expertos pidieron a los chatbots que revisaran y corrigieran sus peores respuestas, la mayoría de las herramientas mejoró de forma notable, especialmente cuando se les indicó consultar fuentes basadas en evidencia en la web. Sin embargo, incluso con autocorrección y búsqueda en Internet, algunas respuestas de ciertos modelos siguieron siendo inexactas, lo que demuestra que el acceso a la red por sí solo no garantiza una orientación médica fiable.

Qué significa esto para pacientes y clínicos

Por ahora, el estudio sugiere que los chatbots basados en grandes modelos de lenguaje pueden ser útiles como ayudas educativas sobre cirugía bariátrica, especialmente para preguntas básicas y búsquedas de información iniciales. No están preparados para reemplazar el consejo profesional ni para guiar decisiones sobre cirugía, recuperación o cuidados a largo plazo por sí mismos. Los autores sostienen que un uso más seguro requerirá modelos adaptados a la medicina bariátrica, fundamentados en evidencia sólida y desarrollados con la participación continua de cirujanos, médicos, dietistas y enfermeras. Con un diseño cuidadoso y una supervisión estricta, estas herramientas podrían eventualmente apoyar conversaciones más informadas entre pacientes y sus equipos asistenciales en lugar de sustituirlas.

Cita: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

Palabras clave: cirugía bariátrica, cirugía para perder peso, chatbots médicos, modelos de lenguaje grandes, educación del paciente