Clear Sky Science · ja

文や節の長さの確率分布は翻訳方向を識別できるか?

· 一覧に戻る

翻訳における文の長さが重要な理由

翻訳された物語を読むとき、私たちはめったにテキストの細かい構成要素――各文や節の長さや、特定の長さがどれくらいの頻度で出現するか――について考えません。しかし、これらのパターンは誰が翻訳しているのか、翻訳が母語へ向けたものか第二言語へ向けたものかといった方向性を静かに示すことがあります。本稿は、文や節の長さの統計的な“指紋”が単純な平均よりも翻訳方向をより確実に識別できるかを検証し、翻訳された言語が通常の文章とどう異なるかに新たな視点を提供します。

Figure 1
Figure 1.

単純な平均を超えて見る

何十年にもわたり、研究者は文の長さを筆致、作者同定、さらにはジャンルの粗い指標として用してきました。初期の研究は文あたりの平均単語数のような基本的な指標に注目しましたが、これはしばしば争点となる文書の作者を決定するには粗すぎることが分かりました。近年では、短文・中程度・長文がどのくらい現れるかといった「分布そのもの」に注目することで、より微妙なパターンが明らかになってきました。本研究はこうした分布アプローチを翻訳研究に持ち込み、長年議論されてきた翻訳方向の問題――母語(L1)への翻訳と第二言語(L2)への翻訳――に光を当てます。

慎重に整えられた短編集

この仮説を検証するため、著者らは中国の影響力ある作家魯迅の短編十作を基に厳密に統制されたコーパスを構築しました。各作品には四人の高い技能を持つ翻訳者による複数の英訳があり、そのうち二名は英語を母語とする者が中国語から英語へ(母語への翻訳、L1)、残る二名は中国語を母語とする者が英語へ翻訳したもの(第二言語への翻訳、L2)です。研究者らは専用のスクリプトで英語テキストを文と節に分割し、各単位に含まれる単語数をカウントしました。単純な平均も計算しましたが、より重要なのは定量言語学で確立された確率分布を用いて長さの全体的な広がりをモデル化した点です。

文のパターンが示すもの

最初の驚きは、平均文長がL1翻訳とL2翻訳でほとんど同じであり、統計検定でも有意な差が見られないことでした。一見すると、両グループの翻訳者は同様の長さの文を作っています。しかし、文長の分布を詳しく見ると隠れた差が浮かび上がります。文を1–5語、6–10語といった帯に分け、拡張正負二項分布(Extended Positive Negative Binomial)という高度な分布で当てはめると、そのモデルの二つのパラメータがL1とL2で一貫して異なります。平たく言えば、両方向とも中程度の長さの文を好みますが、「山」の形状や非常に短い・非常に長い文に向かって頻度がどう減衰するかが、誰がどちらの方向で翻訳したかについて強い手がかりを与えます。

節のパターンが付け加えるもの

文の内部にあるより小さな単位である節は、さらに微妙な物語を語ります。ここでは平均長に差が出ます:第二言語への翻訳では節がやや長く、ばらつきも大きい傾向があります。しかしこれらの平均は各翻訳者の個人的な筆致に強く影響されるため、方向を分類するには限界があります。著者らが節長の順位–頻度パターン(最も一般的な長さがどれくらい出現するか、その次は…)を調べ、ハイパーポアソン分布(Hyperpoisson)を当てはめると、そのパラメータは翻訳方向に対して非常に敏感であり、かつ個々の筆致の指紋も捉えます。対照的に、節長を別の切り口、すなわち長さ–頻度パターンに対してシェントン–スキーズ幾何分布(Shenton–Skees–geometric)を当てはめると、パラメータはもはや方向をよく識別しませんが、翻訳者間の筆致差は反映されます。

Figure 2
Figure 2.

なぜこれらの隠れたパターンが重要か

総じて、本研究は文や節の長さの単純な平均が翻訳を理解するには粗雑な道具であることを示しています。最も有益な信号を運ぶのは長さパターンの確率的な全体形状です。特に有力なのは、文長の長さ–頻度分布と節長の順位–頻度分布という二つの組み合わせです。これらのモデルは、テキストが表面的には似ていても、その翻訳が母語へ向けられたものか第二言語へ向けられたものかを信頼性高く判別できます。非専門家向けのメッセージは、翻訳物には生成過程に関する繊細な統計的痕跡が残されており、人間が直接感じ取れなくてもコンピュータは読み取れるという点です。これらの手法は将来的に翻訳品質の評価、翻訳者スタイルのプロファイリング、人間翻訳と機械翻訳の識別などに役立ちうると同時に、言語が異なる言葉の間を移動する際の振る舞いに関する理解を深める可能性があります。

引用: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

キーワード: 翻訳方向, 文長分布, 節長, 定量言語学, 魯迅の翻訳