Clear Sky Science · zh

通用量表为人工智能评估带来解释性与预测能力

· 返回目录

为何我们需要更好的人工智能成绩单

随着人工智能系统从聊天机器人和编码助手扩展到科学实验室、课堂和工作场所,了解它们能做什么、不能做什么变得至关重要。当前的 AI 成绩单大多是狭义基准上的单一测试分数,这几乎无法说明系统成功或失败的原因——或其在新类型问题上的表现会如何。本文提出了一种新的衡量方法,旨在像温度量表对天气一样系统且持久,为我们提供关于 AI 优势、弱点及未来表现的更清晰洞见。

从零散测试到共享量表

目前大多数 AI 评估更像是一次次设计的学校考试:每个基准把多种技能与不同难度混在一起,最终成绩是一个百分比。这个百分比既受测试本身的奇异性影响,也受 AI 能力的影响。作者认为,这使得无法预测在新任务上的表现并造成混淆——例如,一个数学基准可能说某个模型“推理良好”,而另一个则显示相反的结论。他们建议,不仅要对分数求平均,而应使用一组通用、可被人理解的量表来描述每个任务对不同方面能力的具体需求。

为 AI 能力建立共同的尺子

为创建这把共同的尺子,团队设计了 18 条需求量表,覆盖广泛的认知技能与知识领域。这些量表包括理解语言、遵循推理链、反思自身知识,以及来自自然科学、社会科学、应用与形式科学的事实知识等能力。他们还跟踪一些“额外”需求,这些因素会在不改变核心技能的情况下使问题更难或更易,例如问题的罕见程度、信息量的多少,或是否为多项选择题。每条量表从零需求开始,按逐步增加的挑战级别排列,大致对齐,以便上升一级意味着能解决该题目的个体(或 AI)显著减少。

教机器为题目标注真实需求
Figure 1
Figure 1.

仅靠专家小组人工在 18 条量表上为数千个问题打分几乎不可能,因此作者让先进的语言模型本身充当注释者。他们为每一条量表的每个级别撰写了带示例的详细评分规则,然后要求一个模型(GPT‑4o)为来自 20 个现代 AI 基准的 1.6 万多个问题分配需求等级。人类专家核查了子集并与模型标注达成高度一致。标注完成后,每个基准都可以可视化为“需求谱”,显示它在多大程度上锻炼每种能力。结果表明,许多被赞誉的测试并未测量其设计者所意图的内容:有些自称侧重推理,实则依赖晦涩的事实知识;有些在单一难度级别上聚集;几乎没有同时具备灵敏性(覆盖广泛难度)和特异性(避免测到非目标技能)。

读取 AI 能力曲线,而非原始分数

在对任务使用相同量表之后,下一步是观察不同 AI 系统在各维度上随着需求增加的表现。作者测试了来自三大系列的 15 个大型语言模型,并对每个量表考察随着任务变难成功的概率。将这些点拟合为平滑曲线后,为每个模型在每条量表上得出一个“能力水平”:当其他需求不更高时,该水平上模型约有一半概率成功。与原始准确率不同,这些能力分数不依赖于基准中易难题目的具体比例。所得谱系显示出清晰模式:更大规模的模型主要在事实知识上进步,而专门的“推理”模型则在数值与逻辑思维、识别相关信息,甚至在建模他人心理与社会情境方面获得更多提升。曲线还显示边际收益递减:单纯增加参数最终只带来有限的能力增长。

利用需求谱预测与控制 AI 行为
Figure 2
Figure 2.

由于任务与系统现在都被置于同一组量表上,作者可以把评估视为一个预测问题。他们训练了简单的机器学习“评估器”,只以题目的 18 个需求等级为输入,输出特定 AI 回答正确的概率。这些评估器能非常准确地预测成功率,不仅适用于熟悉的任务,也适用于全新的任务和未用于训练的基准。它们的表现优于依赖文本嵌入或直接微调大型模型等更重型的黑箱方法。这使得实用场景成为可能,例如将每个传入查询路由到最有可能安全处理它的模型,或在造成伤害之前拒绝落在任何模型可靠区之外的查询。

迈向人工智能评估的科学

作者总结认为,通用的需求与能力量表能够改变我们评判与部署 AI 的方式。与其追逐不断增大的、短命的基准和不透明的汇总分,不如建立一个稳定、可扩展的测量框架,解释系统为何失败、公平地跨领域比较它们,并预测其在新任务上的行为。正如物理学中的标准化单位使精密工程成为可能一样,一套共享且设计良好的认知量表,可能在未来多年里为更安全、更可预测的 AI 使用提供基础。

引用: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

关键词: 人工智能评估, 基准测试, 大型语言模型, 预测性评估, 人工智能安全