Clear Sky Science · ja

行動的バイオメトリクスとしての文法:認知的に動機づけられた文法モデルを用いた著者検証

· 一覧に戻る

なぜあなたの書きぶりは指紋のようなのか

電子メール、レビュー、ソーシャルメディアの投稿——何を伝えるかに加えて、短い語や句読点など文章の小さな構成要素は、思いのほか個人的なパターンを作り出します。本稿は、そうしたパターンを用いて二つの文章が同一人物によって書かれたかを判定する新しい方法を探り、法務や安全保障、そして言語が心の中でどのように宿るかという理解に与える可能性について論じます。

Figure 1
Figure 1.

捜査者は誰が何を書いたかをどう決めるか

デジタル文章鑑識では、「この脅迫メールは以前のメッセージと同じ人物が書いたのか」「二つのオンラインアカウントは同一人物によって運用されているのか」といった問いに直面します。従来のアプローチは大きく三つに分かれます。既知の著者の文章だけと争点の文章を比較する手法、適合・非適合の多くの例で分類器を学習させる手法、そして本論文が注目する第三のグループは外部の「参照集団」を導入して、ある書きぶりが多くの筆者と比べてどれほど珍しいかを評価します。ここ十年で、文字列スニペットや深層ニューラルネットワークに基づく強力だが不透明な手法が共有タスクやベンチマークを支配してきました。しかしそれらは遅く解釈が難しく、しばしば作家の真の文体的習慣よりも話題に引きずられることがあります。

語句から心の習慣へ

著者らは新しい手法を認知言語学に根ざした理論に基づいて位置づけます。認知言語学は文法を硬直した規則の集合ではなく、学習されたパターンのネットワークとして扱います。この観点では、私たちの脳は「of the」や「I don’t know」のように頻繁に繰り返される配列をチャンク化し、自動的になる単位として扱う――ちょうどよく練習されたダンスのステップのように。これらの単位は固定表現から柔軟なテンプレート、より抽象的な構造まで連続体を成しています。経験や読書履歴が異なるため、心の中に深く定着する特定の組み合わせも人それぞれ異なります。この「言語的個性の原理」は、二人の人間が同一の内的文法を共有することはあり得ないことを示唆します。論文は、この個別化された文法が筆跡や歩き方に匹敵する一種の行動的バイオメトリクスとして機能し得ると主張します。

隠れた文法を測定可能な信号に変える

この理論に基づき、著者らはLambdaGを提案します。これは話題や内容語を意図的に無視して著者の文法をモデル化する手法です。まず、文章は機能語、句読点、いくつかの抽象カテゴリのみを残すフィルタを通され、固有名詞や具体的な内容が取り除かれます。フィルタされたテキストは文ごとに分割され、統計的な「n-グラム」モデルに入力されて、その著者にとって各文法トークン列がどれくらい起こりやすいかを学習します。別途多数の他の筆者で訓練されたモデル群が比較用の参照集団の役割を果たします。争点テキストの各トークンについて、LambdaGは問いかけます:その文脈でこのトークンは候補著者にとって参照筆者よりどれほど自然か。これらの比較は、候補との類似性とより広い集団における稀少性の両方を反映する単一のスコアに統合されます。最後に単純なロジスティック回帰でそのスコアを較正し、鑑識の場で段階的な証拠の強さとして解釈できるようにします。

Figure 2
Figure 2.

新手法の性能はどれほどか

著者らはLambdaGを、メール、チャットログ、レビュー、ニュース記事など現実に即した十二のデータセットで検証します。これらはしばしば比較的短文を含みます。彼らは、影響力のあるインポスター法、圧縮に基づく手法、話題依存性の低いアンサンブル、いくつかの深層ニューラルシステムを含む七つの強力なベースラインと比較しました。精度やROC曲線下面積などの指標で、LambdaGは多くのデータセットで首位、いくつかで第二位となり、内容全体を利用できるニューラルモデルに対してもしばしば優位に立ちました。また、参照集団の変化に対する感度が従来手法より低く、参照テキストが大きく異なるジャンルから来ると性能は低下するものの、実用に耐えないほどではありません。LambdaGのスコアは文ごと、さらにはトークンごとに分解できるため、分析者は決定に最も影響を与えたパターンを視覚的に示すヒートマップを作成できます。

アイデンティティとプライバシーにとっての意味

研究は、個人の文法――小さな単語、句読点、繰り返されるパターンを習慣的に織り交ぜるやり方――が行動的バイオメトリクスとして機能することを結論づけます。千から二千語程度の短いテキストでも、LambdaGはしばしば個人を強く区別する特有の配列を明らかにし、多くのこうした単位は筆者自身が意識的に制御しているものではないと著者らは主張します。これは鑑識作業に明確な利点をもたらします:比較的単純で実証的に優れ、確立された言語理論に根ざしているため、法廷で説明しやすい。一方でプライバシーの観点からは日常的な文章が、何を言うかではなく、心が学んだ言い方に根ざした安定した識別可能な署名をひそかに運んでいることを強調します。

引用: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

キーワード: 著者検証, 文体計測学, 法言語学, 行動的バイオメトリクス, 文法モデリング