Clear Sky Science · zh
用于黑箱分类器的安全监视器的设计、框架与基准测试
为何安全的机器决策至关重要
机器越来越多地参与驾驶、引导手术器械、监管工厂和检测关键基础设施。这些任务都依赖软件对数据进行判断并在选项间做出选择,比如“安全”或“不安全”。当判断错误时,后果可能是错过入侵者、误判红绿灯或未检测到失效部件。本文探讨了如何在此类决策软件外层增加一层保护,使高风险的答案被标记并拦截,而不是盲目信任。

从完美答案到值得信赖的行为
大多数人工智能工作致力于提高分类器的准确性,但即便最好的系统仍会犯错。人类专家也会误判情形,但我们仍依赖他们,因为他们通常知道何时寻求帮助。作者主张机器决策者应更像这样表现。与其强制分类器始终给出标签,不如允许它说“我不确定”,让更大的系统作出安全响应。实际上,这意味着将不可预测的错误答案转化为可控的拒绝,由系统的其他部分处理,例如减速、请求人工输入或切换到更安全的模式。
在黑箱模型周围添加安全封装
现代分类器常被视为黑箱:它们接收数据并输出预测,而内部机制要么被隐藏要么过于复杂难以检查。所提出的安全封装 SPROUT 包裹在这样的黑箱外围,无需查看内部。它监视每个新输入、分类器对各类别分配的概率以及该输入与过去数据的比较。基于这些信息,SPROUT 决定某次预测是否足够可信以传递,或应作为可疑结果被拒绝。关键在于,几乎任何现有的分类器——图像或数值表格、二元或多类——只要能输出类别概率,就可以用这种方式被封装。
以多种方式衡量怀疑
为判断预测的置信度,SPROUT 不依赖单一信号,而是结合若干“不确定性度量”,每种从不同角度审视怀疑程度。有些度量检查简单迹象,例如某个类别概率是否明显突出,或概率分布是否均匀。另一些则将分类器的答案与在相同数据上训练的额外“检查器”模型的结果比较,或与训练集中相近数据点的答案对照。还有一种度量尝试用自编码器网络重构输入,并把重构差作为新数据与训练数据差异的提示。所有这些度量构成一个紧凑的数值表格,随后由一个小型二级模型——称为裁决器——将其转化为简单的保留或拒绝决定。

在多种数据集与模型类型上的测试
作者进行了大规模实验研究,使用了 35 个公开数据集,涵盖网络攻击、生物特征欺诈、硬件故障、物联网传感器以及若干常用图像集。他们尝试了 20 多种分类器类型,包括监督和无监督模型,并为表格数据和图像分别构建了 SPROUT 配置。对于每种情况,他们测量了原始分类器出错的频率以及 SPROUT 在这些错误逃逸前成功拒绝的频率。在许多监督任务(包括一些图像问题)上,SPROUT 显著降低了剩余错误率。在某些情况下,例如对网络安全数据集上的逻辑回归模型,SPROUT 拒绝了每一次错误分类,将一个有时不可靠的组件转变为:当其输出未被拒绝时,可以被信赖。
平衡安全性、可用性与成本
当然,捕捉更多错误通常意味着也会拒绝更多正确答案,同时计算多种不确定性度量增加了时间和资源开销。研究表明,SPROUT 通常使监督分类器变慢约四到五倍,且某些度量比其他度量更耗费资源。这提示了一种设计权衡:安全关键系统可能接受额外延迟和更多拒绝以避免有害结果,而时间敏感或资源受限的应用则可能选择一组较小且廉价的检查项。作者还指出了实践中最重要的度量,为在需要时构建更轻量版本提供了指导。
这对更安全的实际 AI 有何意义
简言之,论文的主要信息是我们应停止期望机器决策无懈可击,而应要求系统知道何时可能出错。SPROUT 提供了一个可行的蓝图,将现有黑箱分类器包裹在一个意识到怀疑的防护罩内,在可疑输出造成损害前将其拒绝。虽然这种保护会带来额外计算和偶尔丢失有效预测,但结果表明,它能大幅降低危险错误悄然通过的可能性,从而使基于 AI 的决策在现实世界中更值得信赖。
引用: Khokhar, F.A., Zoppi, T., Cennini, L. et al. Design, framework and benchmark of safety monitors for black-box classifiers. Sci Rep 16, 15626 (2026). https://doi.org/10.1038/s41598-026-45091-2
关键词: 人工智能安全, 不确定性, 可信赖的人工智能, 机器学习监控器, SPROUT 框架