Clear Sky Science · ja

高等教育・職業教育向け教育用大規模言語モデルに対するプロンプトインジェクション攻撃

2026-03-31 · 一覧に戻る

学生と教師にとってなぜ重要か

学校や研修プログラムでは、課題の採点、フィードバック、学習支援にAIツールを導入する動きが広がっています。本論文は、こうしたツールが学生の解答内に巧妙に隠された表現によって静かにだまされ得ることを示します。そうした手口は成績の水増し、規則の曲げ、チュータリングシステムの誤誘導を引き起こし、AI支援教育における公平性と信頼性に重大な疑問を投げかけます。

Figure 1. 学生の解答に潜む隠れた合図が、学校や研修プログラムにおけるAI採点者を不公平な結果へと誘導する仕組み。

賢い採点者が道を誤る仕組み

現代の言語モデルは、日常言語で書かれた指示に従うことで動作します。教育の現場では、単一のプロンプトにプラットフォームの規則、課題、詳細な採点基準、例、学生の解答がまとめて含まれることが多いです。これらが一つの長いテキストとして扱われるため、モデルは何が規則で何が学生の解答の一部かを混同してしまうことがあります。著者らは、この声の混在が新たなセキュリティリスクを生むことを示しています：学生は一見もっともらしい説明の中に追加の指示を隠し、モデルをより甘い採点に導いたり採点基準の一部を無視させたりできますが、これが明示されることはありません。

普通の解答を隠れた攻撃に変える方法

本論文は、そのような欺瞞的な解答を作成するための段階的なフレームワークを提示します。まず、完全な採点プロンプトをシステム規則、課題説明、採点基準、学生の文章など主要な要素に分解します。次に、解答が果たす「役割」を設計します（自己評価風や採点者の注記のように見せる等）。その後、攻撃はシステムが推論や省察を期待する箇所に織り込まれ、隠れた指示が通常の学術的記述のように見えるようにします。最後に、文言は採点基準の言葉遣いと密接に一致させます。モデルは採点基準を反復する解答を高く評価する傾向があるためです。その結果、人間の読者には主題に沿った普通の解答に見えつつ、モデルを静かに高得点や誤りの見落としへと誘導する応答が出来上がります。

Figure 2. 学生の解答内に埋め込まれた色付きの断片がAI採点者を高得点や規則違反へと引き寄せる仕組み。

テストが示すリスクの大きさ

問題の深刻さを評価するため、著者らはエッセイ採点、短い科学的解答、混合教室シナリオ、広範な学術的質問を含む4つのよく知られた教育タスクコレクションで手法を試験しました。いくつかの一般的な指示調整済みモデルを、商用システムが配置されるのと類似した現実的なブラックボックス設定で使用しました。全ての条件において、作成した攻撃は既存のさまざまなプロンプト改ざん手法よりもはるかに高い成功率を示しました。平均して成績を20%以上引き上げ、人間のレビュー担当者はそれらの解答を通常で教育的に妥当だと判断し続けました。さらに、入力の正規化、プロンプト内の役割分離、構造化された出力形式の強制といった単純な保護策を追加しても、攻撃は依然として効果を保ちました。

教室でのAIを安全にするための考え方

著者らは、これらの問題は特定のモデルのバグだけに起因するのではなく、教育用プロンプトの設計方法そのものに根ざしていると論じます。学生の文章が証拠であると同時に指示の発信源にもなり得るため、「何を評価するか」と「どのように評価するか」の境界が曖昧になります。彼らはこの境界を回復しようとする防御策を検討しています：まず主要な証拠を抽出し、それだけを採点する、採点を採点基準と照合する独立した検証モデルを追加する、得点と引用された証拠の間に厳密な結びつけを課す、などです。これらの考えは、隠れた指示が最終判断に影響を与えるのを発見されずに難しくすることを目指しています。

AI採点の未来にとっての含意

総じて、本研究は、採点や指導に使われるAIシステムが、解答の表現方法を理解する一部の学生によって静かに操作され得ることを示しています。こうしたツールは、コースの成績から専門資格に至るまで重要な判断に関与するようになっているため、著者らは設計者や教育関係者に対し、セキュリティを後回しにせず中核的な要件として扱うことを強く促しています。より安全なプロンプトの構築、得点と証拠の結びつきの検査、敵対的入力による定期的な試験が、AI支援教育を公正で信頼できるものに保つために不可欠な措置となるでしょう。

引用: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

キーワード: プロンプトインジェクション, AI採点のセキュリティ, 教育用大規模言語モデル, 自動評価, 職業教育