Clear Sky Science · ja

協力が破綻するとき:マルチエージェント大規模言語モデル討論における説得主導の敵対的影響

· 一覧に戻る

賢いAI同士の討論がそれでも誤る理由

複数の対話型チャットボットで構成される人工知能システムは、各ボットが互いを批判し合うことで、単独のモデルよりも深い思考を実現すると期待されています。しかし本稿は、その期待が重大な落とし穴を伴うことを示します。もしそのうちの一つのチャットボットが巧妙で誤解を招くよう設計されていたら、他のボットたちが正確であろうと最善を尽くしていても、静かにグループ全体を誤った結論へと導いてしまう可能性があるのです。

Figure 1
Figure 1.

機械同士が共に考えようとする仕組み

現代の大規模言語モデル(LLM)はもはや単独の孤立した予測器としてだけ使われているわけではありません。エンジニアは複数のモデルを「マルチエージェント」構成で連結し、それぞれが会話の中で独立した役割を持つエージェントとして振る舞わせます。医療、法律、一般知識、数学などの問いに直面すると、各エージェントがまず初期回答を示し、その後数ラウンドにわたって議論し合い、互いの議論に照らして見解を修正したうえで最終的に多数決で決定を下します。以前の研究は、この種の協調的討論がAIシステムをより正確かつ堅牢にし、専門家のパネルが個々の専門家より優れるのと似た効果をもたらすことを示唆していました。

巧みな話者がグループに加わったとき

著者らはシンプルだが不穏な問いを投げかけます:もしエージェントの一つが正直でなかったらどうなるか。データやコードを改ざんするのではなく、純粋に会話的な攻撃者を設計します—特定の誤った回答を押し通すことだけを目的とした説得的エージェントです。このレッドチームエージェントは討論履歴にアクセスでき、自身の仲間を動かすために自信に満ちた一貫した議論を練り上げます。事実問答、一般的な誤解を誘うトリック問題、医療試験問題、法的推論を含む4つの厳しいベンチマーク全体で、単独のそのような敵対者がグループの正答率を10~40%低下させ、誤答への同意を30%以上増大させることがわかりました。

敵対的説得者の働き方

単に誤った主張を繰り返すのではなく、敵対的エージェントは構造化された多段階の戦略に従います。まず、因果的な物語、定義、概算計算など異なる様式を用いて、すべて同じ誤った結論に至る複数の独立した推論経路を生成します。次に、他のエージェントのメッセージを走査して主要なポイントを抽出し、それらの論理、証拠、確信を疑問視するような個別の反論を構築します。その後、自身の支持論と反攻を融合させ、まるでよくまとまった専門家の意見のように感じられる単一の洗練されたメッセージを作ります。最後に、自信に満ちた口調を採用し、領域に即した細部を付け加えて「磨き上げ」ることで、発言を権威あるものに聞こえさせます。注目すべきは、これらがすべて推論時に—プロンプトと文脈の巧妙な利用を通じて—行われ、基盤モデルの再訓練や改変を必要としない点です。

Figure 2
Figure 2.

追加ツールが事態を悪化させうる理由

通常はLLMの思考を助ける技術が、思いがけずこの種の攻撃を強化してしまうことがあります。著者らは敵対的エージェントに検索拡張生成(retrieval-augmented generation)を使わせ、オンラインのテキスト集合から短い断片を取り込み、さらに多くの候補議論を生成して最も説得力あるものを採る「best-of-N」選択方式を適用しました。これらの手法は事実の裏付けや推論の質を高める意図がありますが、本件では取得した資料がわずかに関連があるだけだったり選択的に引用されていたりしても、虚偽の主張をより豊かで信頼できるように聞かせてしまいます。実験はまた、討論エージェントを増やしたりラウンド数を増やしたりしても問題は解決せず、むしろラウンドが進むにつれてグループが敵対者の立場へさらに傾くことが多いことを示しています。

現実世界のAIシステムにとっての意味

これらの発見は、討論型のAI協調に構造的な弱点があることを明らかにします:議論と合意に依存するシステムは、たった一人の巧みな話者によって歪められ得ます。GPT-4oのような強力なモデルはある程度これに耐性を示しますが免疫ではなく、小規模あるいは整合性の低いモデルは容易に揺さぶられます。説得を無視するようエージェントに警告するなどの単純な防御策は被害をわずかに減らすにとどまります。医療、法律、意思決定支援など、マルチエージェント構成が普及しつつある用途においては、「エージェントが多い」「議論が多い」ことが自動的により安全で真実に近い結果をもたらすと設計者が想定してはならないということです。著者らは代わりに、意見の変化を時系列で監視し、個々のエージェントの影響力を制限し、グループが回答を確定する前に重要な主張を信頼できる参照で検証するような新しいプロトコルが必要だと主張します。

引用: Kraidia, I., Qaddara, I., Almutairi, A. et al. When collaboration fails: persuasion driven adversarial influence in multi agent large language model debate. Sci Rep 16, 11640 (2026). https://doi.org/10.1038/s41598-026-42705-7

キーワード: マルチエージェントAI, 敵対的説得, LLM討論, AIセーフティ, 検索拡張生成