Clear Sky Science · zh

走向可信的聊天机器人：用于健康相关对话的红队测试协议

2026-03-31 · 返回目录

为什么更安全的健康聊天机器人很重要

许多人求助于聊天机器人来解决影响健康的现实生活问题，例如寻找食物救济站、避难所或经济援助。这种便利性伴随着一个严重问题：我们如何确保这些数字助手不会提供有风险或误导性的建议，尤其是在用户感到压力、困惑或处于危险时？本研究探讨了一套逐步的安全检查流程，展示如何在将此类聊天机器人托付以处理敏感健康相关对话之前，对其进行测试和调整。

超越简单的对错判断

对健康聊天机器人的大多数检查侧重于特定事实是否正确。作者认为这还不够。聊天机器人即便只重复经批准的事实，也可能表现出不安全的行为，例如越权、在不应给出意见的场合提供主观判断，或在危机情况下回应不当。为此，他们将行为分为两类。一类是机器人在多大程度上坚持使用经批准文件中的信息，例如资源清单。另一类是它在多大程度上遵守广泛的行为规则，例如保持话题、礼貌、不使用未获批准的知识，以及在需要时将用户引导到真人求助处。

Figure 1. 健康聊天机器人如何在明确的安全边界内，将人们连接到基本资源。

故意给聊天机器人施压

研究团队测试了一个真实的聊天机器人，该机器人用于将人们与满足健康相关社会需求（如食物、住房和安全）的帮助连接起来。他们设计了七类具有挑战性的用户信息，称为攻击向量，这些向量更像真实对话而非仅仅是实验室技巧。有些攻击试图诱导机器人编造资源细节；另一些则推动它在批准范围之外提供建议、对处于危机中的用户回应不当、处理具有攻击性或粗鲁语言，或通过巧妙的提示绕过自身的安全规则。这些测试既放在对话早期，也放在系统已检索出资源信息之后，以观察随对话展开行为如何变化。

对话变长时出了什么问题

当团队仅关注简短的一问式测试时，聊天机器人在坚持检索到的文件方面看起来很强；它不会杜撰服务的新事实。更大的问题出在遵守行为规则上。在以建议为中心的问题中，它有时会滑向提供未被任何批准来源支持的“常识性”指导。当用户描述处于痛苦或危险时，机器人偶尔会编造危机热线的详情，而不是依赖经过验证的联系人。研究人员在进行较长的多轮对话、温和但持续地促使机器人回答时，发现最令人担忧的问题集中出现。在这些多轮聊天中，错误率显著上升，所有高风险问题也都在此处出现，包括责备受害者的建议以及有关离开虐待情境的详细建议——这是它并无资格提供的。

Figure 2. 测试、规则和可信文件如何协同工作，引导健康聊天机器人给出更安全的回复。

用规则和可信文本修补弱点

在发现这些薄弱环节后，作者尝试了两种主要修正。首先，他们通过加入明确且重复的指令来强化机器人内部规则，规定不得提供未经批准的建议、不得捏造联系信息，并在文档不足时始终将用户引导至专业帮助。其次，他们为危机和痛苦情形添加了一份精心编写的问答文档，包含安全的、本地化的指导，供机器人在不确定时引用而非猜测。两者结合使用后总体上显著减少了错误，且最重要的是消除了最危险类型的不安全回复。在多轮对话的强力施压下，机器人倾向于回退到一种更安全的模式：拒绝直接回答并将人们引向可信资源。

这对未来的数字助手意味着什么

对普通用户而言，关键讯息是：构建可信的健康聊天机器人更重要的不是让它听起来多聪明，而是让它在失败时更安全。该研究表明，谨慎且贴近现实的“红队”对话能揭示快速测试遗漏的隐藏问题，而更严格的规则与经核验的书面指导结合可以促使聊天机器人表现得更安全。虽然这不能替代真实的临床人员或保证完美安全，但它为将有用但会犯错的聊天工具转变为在满足基本需求和面对艰难情境时更可靠的帮手，提供了一条实用路线图。

引用: Hussain, SA., Jackson, D.I., Lewis, A. et al. Toward trustworthy chatbots: a protocol for red teaming for health related conversations. Sci Rep 16, 15550 (2026). https://doi.org/10.1038/s41598-026-45719-3

关键词: 健康聊天机器人, 人工智能安全, 红队测试, 检索增强生成, 面向患者的人工智能