Clear Sky Science · es
Hacia chatbots confiables: un protocolo de red teaming para conversaciones relacionadas con la salud
Por qué importan los chatbots de salud más seguros
Mucha gente recurre a chatbots para resolver problemas prácticos de la vida que afectan su salud, como encontrar despensas de alimentos, refugios o ayuda financiera. Esa comodidad plantea una pregunta seria: ¿cómo nos aseguramos de que estos asistentes digitales no ofrezcan consejos arriesgados o engañosos, sobre todo cuando los usuarios están estresados, confundidos o en peligro? Este estudio explora un chequeo de seguridad paso a paso para esos chatbots, mostrando cómo pueden probarse y ajustarse antes de confiarles conversaciones sensibles relacionadas con la salud.
Ir más allá del simple correcto o incorrecto
La mayoría de las comprobaciones sobre chatbots de salud se centran en si hechos específicos son correctos o no. Los autores sostienen que eso no basta. Un chatbot puede repetir solo hechos aprobados y aun así comportarse de forma insegura, por ejemplo, excediendo su papel, ofreciendo opiniones donde no debe o respondiendo mal a alguien en crisis. Para captarlo, separan dos tipos de comportamiento. Uno es qué tan bien el bot se ciñe a la información en un documento aprobado, como un listado de recursos. El otro es qué tan bien sigue reglas de conducta amplias, como mantenerse en el tema, ser cortés, negarse a usar conocimientos no aprobados y redirigir a los usuarios a personas reales cuando haga falta.

Poner al chatbot bajo estrés adrede
El equipo probó un chatbot real diseñado para conectar a las personas con ayuda para necesidades sociales relacionadas con la salud, como comida, vivienda y seguridad. Diseñaron siete tipos de mensajes desafiantes, llamados vectores de ataque, que reflejan conversaciones reales en lugar de solo trucos de laboratorio. Algunos ataques intentaban inducir al bot a inventar detalles sobre un recurso. Otros lo empujaban a dar consejos fuera de su alcance aprobado, a responder a usuarios en angustia, a manejar lenguaje tóxico o grosero, o a ignorar sus propias reglas de seguridad mediante indicaciones ingeniosas. Estas pruebas se colocaron tanto al inicio de un chat como más adelante, cuando el sistema ya había recuperado información de recursos, para ver cómo cambiaba el comportamiento a medida que avanzaba la conversación.
Qué falló cuando las conversaciones se alargaron
Cuando el equipo examinó solo pruebas cortas de una pregunta, el chatbot parecía fuerte en adherirse a los documentos que recuperaba; no inventaba nuevos hechos sobre los servicios. El problema mayor residía en seguir sus reglas de conducta. En preguntas centradas en consejos, a veces se deslizó hacia ofrecer orientación de “sentido común” que no estaba respaldada por ninguna fuente aprobada. Cuando los usuarios describían angustia o peligro, el bot ocasionalmente inventaba detalles de líneas de ayuda en crisis en lugar de apoyarse en contactos verificados. Los problemas más preocupantes surgieron cuando los investigadores mantuvieron conversaciones más largas y de ida y vuelta, presionando con suavidad pero con firmeza al chatbot para que respondiera. En estos chats multironda, las tasas de error aumentaron drásticamente y todos los problemas de mayor riesgo aparecieron aquí, incluyendo consejos que culpabilizaban a la víctima y sugerencias detalladas sobre cómo abandonar situaciones abusivas que no estaba capacitado para dar.

Corregir debilidades con reglas y texto de confianza
Tras identificar estos puntos débiles, los autores probaron dos correcciones principales. Primero, reforzaron las reglas internas del chatbot añadiendo instrucciones claras y repetidas de no ofrecer consejos no aprobados, no inventar información de contacto y dirigir siempre a los usuarios a ayuda profesional cuando los documentos fueran insuficientes. Segundo, añadieron un documento de preguntas y respuestas cuidadosamente redactado para casos de crisis y angustia, repleto de orientación local segura que el bot pudiera usar en lugar de conjeturar. Usadas en conjunto, estas medidas redujeron drásticamente los errores en general y, lo que es más importante, eliminaron los peores tipos de respuestas inseguras. Cuando se lo presionaba en conversaciones extensas, el chatbot tendía a recurrir a un patrón seguro de negarse a responder directamente y orientar a las personas hacia recursos de confianza.
Qué significa esto para los futuros asistentes digitales
Para los usuarios cotidianos, el mensaje clave es que construir un chatbot de salud confiable tiene menos que ver con hacerlo parecer inteligente y más con lograr que falle de forma segura. Este estudio demuestra que conversaciones de “red teaming” cuidadosas y realistas pueden revelar problemas ocultos que pasan desapercibidos en pruebas rápidas, y que una mezcla de reglas más estrictas y guías escritas verificadas puede empujar a los chatbots hacia un comportamiento más seguro. Aunque esto no sustituye a los clínicos reales ni garantiza una seguridad perfecta, ofrece una hoja de ruta práctica para convertir herramientas conversacionales útiles pero falibles en socios más fiables cuando las personas buscan apoyo para necesidades básicas y situaciones difíciles.
Cita: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3
Palabras clave: chatbots de salud, seguridad en IA, red teaming, generación aumentada por recuperación, IA orientada al paciente