Clear Sky Science · zh

用于黑箱分类器的安全监视器的设计、框架与基准测试

2026-04-02 · 返回目录

为何安全的机器决策至关重要

机器越来越多地参与驾驶、引导手术器械、监管工厂和检测关键基础设施。这些任务都依赖软件对数据进行判断并在选项间做出选择，比如“安全”或“不安全”。当判断错误时，后果可能是错过入侵者、误判红绿灯或未检测到失效部件。本文探讨了如何在此类决策软件外层增加一层保护，使高风险的答案被标记并拦截，而不是盲目信任。

从完美答案到值得信赖的行为

大多数人工智能工作致力于提高分类器的准确性，但即便最好的系统仍会犯错。人类专家也会误判情形，但我们仍依赖他们，因为他们通常知道何时寻求帮助。作者主张机器决策者应更像这样表现。与其强制分类器始终给出标签，不如允许它说“我不确定”，让更大的系统作出安全响应。实际上，这意味着将不可预测的错误答案转化为可控的拒绝，由系统的其他部分处理，例如减速、请求人工输入或切换到更安全的模式。

在黑箱模型周围添加安全封装

现代分类器常被视为黑箱：它们接收数据并输出预测，而内部机制要么被隐藏要么过于复杂难以检查。所提出的安全封装 SPROUT 包裹在这样的黑箱外围，无需查看内部。它监视每个新输入、分类器对各类别分配的概率以及该输入与过去数据的比较。基于这些信息，SPROUT 决定某次预测是否足够可信以传递，或应作为可疑结果被拒绝。关键在于，几乎任何现有的分类器——图像或数值表格、二元或多类——只要能输出类别概率，就可以用这种方式被封装。

以多种方式衡量怀疑

为判断预测的置信度，SPROUT 不依赖单一信号，而是结合若干“不确定性度量”，每种从不同角度审视怀疑程度。有些度量检查简单迹象，例如某个类别概率是否明显突出，或概率分布是否均匀。另一些则将分类器的答案与在相同数据上训练的额外“检查器”模型的结果比较，或与训练集中相近数据点的答案对照。还有一种度量尝试用自编码器网络重构输入，并把重构差作为新数据与训练数据差异的提示。所有这些度量构成一个紧凑的数值表格，随后由一个小型二级模型——称为裁决器——将其转化为简单的保留或拒绝决定。

在多种数据集与模型类型上的测试

作者进行了大规模实验研究，使用了 35 个公开数据集，涵盖网络攻击、生物特征欺诈、硬件故障、物联网传感器以及若干常用图像集。他们尝试了 20 多种分类器类型，包括监督和无监督模型，并为表格数据和图像分别构建了 SPROUT 配置。对于每种情况，他们测量了原始分类器出错的频率以及 SPROUT 在这些错误逃逸前成功拒绝的频率。在许多监督任务（包括一些图像问题）上，SPROUT 显著降低了剩余错误率。在某些情况下，例如对网络安全数据集上的逻辑回归模型，SPROUT 拒绝了每一次错误分类，将一个有时不可靠的组件转变为：当其输出未被拒绝时，可以被信赖。

平衡安全性、可用性与成本

当然，捕捉更多错误通常意味着也会拒绝更多正确答案，同时计算多种不确定性度量增加了时间和资源开销。研究表明，SPROUT 通常使监督分类器变慢约四到五倍，且某些度量比其他度量更耗费资源。这提示了一种设计权衡：安全关键系统可能接受额外延迟和更多拒绝以避免有害结果，而时间敏感或资源受限的应用则可能选择一组较小且廉价的检查项。作者还指出了实践中最重要的度量，为在需要时构建更轻量版本提供了指导。

这对更安全的实际 AI 有何意义

简言之，论文的主要信息是我们应停止期望机器决策无懈可击，而应要求系统知道何时可能出错。SPROUT 提供了一个可行的蓝图，将现有黑箱分类器包裹在一个意识到怀疑的防护罩内，在可疑输出造成损害前将其拒绝。虽然这种保护会带来额外计算和偶尔丢失有效预测，但结果表明，它能大幅降低危险错误悄然通过的可能性，从而使基于 AI 的决策在现实世界中更值得信赖。

引用: Khokhar, F.A., Zoppi, T., Cennini, L. et al. Design, framework and benchmark of safety monitors for black-box classifiers. Sci Rep 16, 15626 (2026). https://doi.org/10.1038/s41598-026-45091-2

关键词: 人工智能安全, 不确定性, 可信赖的人工智能, 机器学习监控器, SPROUT 框架