Clear Sky Science · zh

方案效率与指令褒贬对人类、GPT-4 与 GPT-4o 中加法与减法策略影响的研究

· 返回目录

为什么“做得更少”出乎意料地困难

当我们在日常生活中试图修正问题——重写一封邮件、重新整理房间、重新设计一项政策——通常会考虑添加什么,而不是删除什么。这种静默的倾向去堆砌而不是精简,可能会让我们的生活充斥杂物、软件臃肿以及过于复杂的规则。本文探讨这种“多即更好”习惯到底有多强,以及像 GPT-4 和 GPT-4o 这样的新型人工智能是否也存在、减弱或甚至强化了这种人类偏见。

Figure 1
Figure 1.

为何在我们心中添加胜过删除

心理学研究显示,人们常常忽视涉及移除的解决方案,即便减法更简单或更有效。添加让人感觉自然,并且在文化和语言中得到强化:诸如“更多”“更高”等词语常与进步和成功相连,而“更少”则可能听起来像损失或失败。这种偏见在许多领域都有表现,从倾向增加治疗而非停止有害习惯的医疗决策,到强调回收而不是直接减少产生废物的环境政策。本研究询问这种人类偏向是否也出现在以海量文本训练的大型语言模型中。

用简单难题测试人类与 AI

研究人员进行了两项大规模研究,将人类参与者先与 GPT-4、再与其后继者 GPT-4o 进行比较。人类与 AI 面临两类问题。在空间“对称”任务中,参与者需要通过开关格子使一个小网格图案变得完全对称,这可以通过填充额外格子(加法)或清除已有格子(减法)来实现。以语言为主的“摘要”任务中,他们得到一篇新闻和现有摘要,并被要求在字数限制下修改摘要,同样可以通过添加或删减词句来完成。团队还操纵了两个关键因素:添加与删除是否效率相同,或减法明显步骤更少;以及指令是用中性措辞(“更改”)还是带积极含义的表述(“改进”)。

Figure 2
Figure 2.

人们做了什么 vs 机器做了什么

两项研究均出现了明显模式:人类与语言模型都偏好加法解法,但模型的偏好更为强烈。人类表现出向添加格子或单词的明显倾向,但他们仍会考虑效率。当减法是更快的路径时,人类更愿意去移除元素。相比之下,GPT-4 在许多情况下恰恰相反——在减法更高效时反而给出更多的加法答案。GPT-4o 在基于文本的摘要任务中在一定程度上减少了这种不一致,其选择更接近人类行为,但在网格任务中仍大多忽视效率。在许多条件下,尤其是 GPT-4o,给出的加法响应接近饱和水平。

积极措辞如何影响选择

指令的情感语调也有影响,但表现为具体情形。在空间网格任务中,将动词从中性(“更改”)换为积极(“改进”)并未可靠地改变人类或模型的策略。在摘要任务中,情况则不同。当指令反复使用积极措辞时,两种 GPT 模型以及在第二项研究中的人类参与者都产生了更多的加法响应。这与更广泛的语言统计一致:与“改进”相关的词语更常与添加而非移除的想法配对。这表明,提示中微妙的情感框架可以推动人类和 AI 倾向于“更多”,即便“更少”就足够。

这些发现为何对日常决策重要

对非专业读者而言,核心信息是:我们的思维以及我们所构建的 AI,都普遍偏好通过添加而非删除来解决问题——而现有语言模型往往放大了这种倾向。人类仍表现出一定灵活性,当减法明显更高效时会进行调整,但模型主要遵循其训练语料中嵌入的语言模式。随着这些系统越来越多地参与政策拟定、系统设计或提出日常改进建议,它们可能在无形中引导我们走向更复杂、更臃肿的解答。认识到这种共同的“加法偏向”是设计工具与习惯的第一步,提醒我们不仅问“我们还能添加什么?”,也要问“我们能移除什么?”

引用: Uhler, L., Jordan, V., Buder, J. et al. Influence of solution efficiency and valence of instruction on additive and subtractive solution strategies in humans, GPT-4, and GPT-4o. Commun Psychol 4, 41 (2026). https://doi.org/10.1038/s44271-026-00403-0

关键词: 加法偏向, 减法推理, 大型语言模型, 人机比较, 决策制定