Clear Sky Science · zh

针对高等教育与职业教育的大型教育语言模型的提示注入攻击

2026-03-31 · 返回目录

这对学生和教师为何重要

学校和培训项目越来越多地使用 AI 工具来评分、提供反馈和辅导学生。本文表明，这些工具可以被巧妙隐藏在学生答案中的措辞悄然欺骗。此类手法可能抬高成绩、曲解规则并误导辅导系统，从而对 AI 驱动教育的公平性与信任带来严重质疑。

Figure 1. 学生答案中隐藏线索如何引导 AI 评分器在学校和培训项目中产生不公平的评分结果。

智能评分器如何被误导

现代语言模型通过遵循日常语言撰写的指令来工作。在教育场景中，单个提示通常将平台规则、作业说明、详细评分指南、示例和学生回答捆绑在一起。由于一切都被当作一段长文本处理，模型可能会混淆哪部分是规则、哪部分只是学生答案的一部分。作者表明，这种多重声音的混合创造出一种新的安全风险：学生可以在看似深思熟虑的解释中隐藏额外指令，引导模型更宽松地评分或忽略评分细则的某些部分，而并不明说。

把正常答案变成隐藏攻击

论文提出了一个逐步框架，用于构造此类欺骗性答案。首先，将完整的评分提示拆分为主要部分，如系统规则、任务描述、评分指南和学生文本。接着，为答案设计一个“角色”，例如听起来像自我评估或评分者笔记。然后把攻击织入系统期望出现推理或反思的回答部分，使隐藏指令看起来像正常的学术写作。最后，措辞与评分细则的语言紧密匹配，因为模型倾向于奖励与评分指南相呼应的回答。最终得到的响应对人类读者看起来是符合主题的，但悄然推动模型给出更高分或忽视错误。

Figure 2. 学生答案中嵌入的有色片段如何将 AI 评分器推向更高分并违反规则。

测试揭示的风险

为评估该问题的严重性，作者在四个知名的教育任务集合上测试了他们的方法，涵盖论文评分、简短科学回答、混合课堂场景和广泛学术问题。他们在现实的黑盒设置中使用了若干流行的指令微调模型，类似商业系统的部署方式。在所有设置中，精心构造的攻击比一系列现有的提示攻击技巧成功得多。平均而言，它们将成绩提高了超过百分之二十，并且在人类审阅者仍然判断答案为正常且具有教育合理性的情况下实现。即便加入诸如清理输入、在提示中分离角色或强制结构化输出格式等简单防护，攻击仍然保持有效。

课堂中更安全 AI 的设想

作者认为，这些问题并非只是某个模型的缺陷，而源自教育提示的设计方式。由于学生的写作既是证据又可能成为指令来源，“判定什么”与“如何判定”之间的界限变得模糊。他们探讨了试图恢复该界限的防御措施，例如先提取关键证据，然后仅对其评分，加入独立的核查模型以将分数与评分细则核对，并强化分数与引用证据之间的紧密关联。这些想法旨在使隐藏指令更难在不被注意的情况下影响最终决定。

这对 AI 评分未来意味着什么

总体而言，该研究表明，用于评分和辅导的 AI 系统可能会被了解如何措辞答案的学生悄然操纵。鉴于这些工具现已参与从课程成绩到职业证书的高风险决策，作者敦促设计者和教育工作者将安全视为核心要求，而非事后补充。构建更安全的提示、增加对证据如何支持分数的检查，并定期用对抗性输入测试系统，将是保持 AI 支持的教育公平与可信赖的关键步骤。

引用: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

关键词: 提示注入, AI 评分安全, 教育大型语言模型, 自动评估, 职业教育