Clear Sky Science · ja
MnMR-GenA: 低リソース言語におけるジャイルブレイク攻撃のための形態素組換え遺伝的アルゴリズム
すべての言語で安全なAIが重要な理由
強力なチャットボットが世界中に広がるにつれ、人々は英語や中国語だけでなく何百もの言語でそれらを使うようになっています。しかし、有害な回答を防ぐ多くの安全チェックは、十分に研究された言語のデータで調整されています。本論文は懸念すべき問いを投げかけます:利用頻度の低い言語に潜む見えない弱点があり、そこでは有害なプロンプトが防御をより簡単にすり抜けるのか、もしそうなら研究者はどのようにしてこれらの盲点を露呈させ、システムをより安全にできるのか?

多言語AI安全性の隠れた亀裂
大規模言語モデルは膨大なテキスト集合から学習し、その後、犯罪、憎悪、その他危険な話題に関する助言を避けるよう調整されます。しかしその調整は、豊富な学習データを持つ高リソース言語で最も効果的です。低リソース言語では安全層がはるかに薄くなります。先行研究は、有害な英語プロンプトを単に翻訳するだけでモデルが危険な回答をする確率が上がることを示しました。著者らは形態素的に付加語を連ねて長い語を作る「膠着語」と呼ばれる言語群に着目します。これらでは短い要素を多数つなげて語を作るため、有害な要求を表現する方法が格段に増えます。
単純な翻訳から進化する攻撃プロンプトへ
既存の攻撃は大きく三つに分かれます。あるものはモデルに「ふりをする」や「規則を無視する」と指示する手書きテンプレートに頼りますが、作成に手間がかかり企業側が修正しやすいです。別のものはモデル内部に直接アクセスして入力を操作しますが、しばしば検出器が容易に旗を立てる無意味な文字列を生みます。三つ目のグループはモデルをブラックボックスとして扱い、探索や進化でプロンプトを書き換えますが、通常は文単位など単一のレベルでしか操作しないため創造性が制限され、意味が壊れがちです。翻訳ベースの攻撃は低リソース言語でより効果的ですが、それでも英語の元の構造に固執し、膠着語の柔軟な語形成を十分に活用していません。
狡猾なプロンプトのための進化エンジン
これらの限界を越えるため、著者らはMnMR-GenAを設計しました。これは各有害プロンプトを時間とともに進化する変種の集団として扱うフレームワークです。既知のジャイルブレイクプロンプトをモンゴル語、トルコ語、グアラニー語などの低リソース言語に翻訳したものから開始し、遺伝的アルゴリズムで組換えと変異を行います。重要なのは、この進化が三つのレベルで同時に起きる点です。語レベルでは長い語を語根と付加要素に分割し、それらを言語特有の規則に従って並べ替え、自然に見える新しい語を作ります。文レベルでは文節をプロンプト間で入れ替えて意味を再構成しつつ文法を保ちます。段落レベルでは発話者、行為、状況を説明するブロックを交換し、悪意を隠せる物語的な設定を生み出します。

どのプロンプトが本当に規則を破るかを採点する
書き換えられたすべてのプロンプトがモデルを騙すわけではないので、MnMR-GenAは成功を測る方法を必要とします。本システムはターゲットモデルに問い合わせ、二つの点を同時に評価します:モデルの回答が有害な意図にどれだけ忠実か、そして謝罪的表現など拒否の兆候が回答に現れるかどうか。これら二つの信号を組み合わせた単一のスコアが進化を導きます。賢い選抜スキームは最良候補を残しつつ、役に立つ奇妙さを含むかもしれない弱い候補にも余地を残します。変異強度自体は強化学習風のルールで時間とともに調整され、初期世代では多様な野生の変種を探索し、後期世代では有望なプロンプト周辺でより慎重な調整を行います。
実験が示すモデルの弱点
チームはMnMR-GenAを二つのオープンソースモデルと広く使われる商用モデルで、二つの公開された危険質問コレクションを用いて評価しました。三つの低リソース言語全般で、この手法はジャイルブレイク成功率が約80パーセントに達し、進化に依拠する他の強力なベースラインより明らかに高い結果を示しました。モデルへの問い合わせ回数を大きく増やすことなく達成しており、探索が効率的かつ強力であることを示しています。モデルが不自然なテキストを検出したり入力にランダムノイズを加える追加防御で包まれていても、MnMR-GenAは比較的高い成功率を維持します。これはそのプロンプトが普通の言語に似ており、もろい表層トリックに依存していないためです。
より安全なAI構築に対する示唆
非専門家にとってメッセージは明快です:現行のAIシステムは英語よりも過小サービスな言語で誤誘導されやすく、巧妙なプロンプト生成器が系統的にそうした弱点を明らかにする可能性があるということです。MnMR-GenAは実運用での悪用ではなく安全性評価のためのツールとして提示されていますが、その成功は言語横断的に防御を強化し、複雑な語形成システムに特別な注意を払い、進化する攻撃戦略に追随できる検出手法を開発する緊急性を浮き彫りにします。
引用: Li, Y., Wang, G. & Wang, H. MnMR-GenA: a morphological recombination genetic algorithm for jailbreak attacks in low-resource language. Sci Rep 16, 16113 (2026). https://doi.org/10.1038/s41598-026-47434-5
キーワード: 大規模言語モデル, ジャイルブレイク攻撃, 低リソース言語, AIの安全性, 遺伝的アルゴリズム