Clear Sky Science · zh

诊断性在评估机器人能力中的作用

· 返回目录

为何机器人的失误关系重大

机器人和人工智能系统正迅速从实验室走入工厂、医院和我们的街道。当我们开始依赖它们时,一个问题变得至关重要:人们如何判断一台机器人是否真正有能力?本文探讨了我们如何评估那些通常表现良好但偶尔犯出人意料错误的机器人——或者那些偶有意外成功的机器人。研究结果有助于解释为何我们对机器的“直觉感受”有时与口头表述不一致,以及为何一次错误可能会被置之不理,也可能永久改变我们的信任。

我们判断机器的两种方式

心理学家区分两类印象。显性印象是我们可以在被问及时直接报告的判断,例如在1–7的能力量表上给机器人评分。隐性印象更为自动,反映在人们在不刻意评估时做出的快速反应。早期研究表明,显性印象在看到新行为时变化较快,而隐性印象则移动较慢。本研究探问这一差异是否真的是源于不同的心理系统——还是取决于新行为看起来在多大程度上能说明机器人真实能力,也就是它的诊断性。

Figure 1
Figure 1.

从工厂车间到手术室和公路

在九项在线实验中,共有超过3700名参与者,研究者向人们展示了在逼真情境中工作的不同机器人:在拥挤仓库中导航的工业机器人、沿精确路径操作的手术机器人,以及对路面障碍做出反应的自动驾驶汽车。有时机器人始终熟练,或始终笨拙;在其他情况下,机器人大多能胜任但出现一次明显失误,或大多无能但有一次突出成功。在观看这些短片段的表演后,通过两种方式测量参与者的印象:直接的自我报告问题和能捕捉快速、自动反应的间接任务。

当一次异常表现变得重要

在这些逼真的情境中,人们对机器人的显性评分既反映整体表现模式,也受罕见“特殊”试次的影响。众多成功中的一次失误会明显拉低显性评分,而众多失败中的一次成功则会提升评分。然而,隐性印象讲述了不同的故事。它们对机器人的典型行为反应强烈——无论它通常是有能力还是无能——但在很大程度上忽略了单次的特殊事件。即便研究者在设计上尽力使“显性”和“隐性”任务在外观和感觉上尽可能相似,唯一主要的差别是参与者是否被明确告知要刻意评估机器人,这种分离仍然存在。

是什么让机器人的错误真正有意义

研究团队接着检验了一个关键观点:特殊事件的影响取决于它看起来有多大的诊断性——人们是否认为它确实揭示了关于机器人持久能力的信息。在新的研究中,参与者先看到机器人完成若干无瑕的试次,随后看到一次或多次失败。当后来的失败被描述为重要的、最近的测试,或当多次失败累积到与早期成功量相当时,显性和隐性印象都会发生变化。关键在于,在这些高诊断性条件下,即使是单次错误也足以推动自动的、隐性的印象发生改变。当同类型的失误被描述为过时、不重要或一次性偶发事件时,隐性印象几乎没有动摇,尽管显性评分仍会变化。

Figure 2
Figure 2.

这对日常对人工智能的信任意味着什么

综合来看,研究结果表明,我们对机器人能力的快速、自动印象并非对新信息视而不见,但它们在改变前需要更强或更明确有意义的证据。相比之下,我们的口头评分即使对薄弱或模糊的事件也高度敏感,部分原因是当有人要求判断时,我们感到必须利用现有的任何信息。对设计师、工程师和政策制定者而言,这意味着管理对机器人的信任不仅仅是减少错误,还包括如何对这些错误进行表述和理解。一旦发生高度说明性的失败——例如汽车在明显应该停车时未停——它可以同时重塑我们的直觉感受和陈述性看法,从而直接影响我们愿意多大程度上采用并依赖智能机器。

引用: Surdel, N., Ferguson, M.J. The role of diagnosticity in judging robot competence. Sci Rep 16, 7578 (2026). https://doi.org/10.1038/s41598-026-35375-y

关键词: 机器人能力, 人机交互, 隐性偏见, 对人工智能的信任, 诊断性信息