Clear Sky Science · ja
中国古典の英訳の可読性評価:XGBoostとBPニューラルネットワークに基づく研究
古い知恵がいまだに明快な英語を必要とする理由
孔子の『論語』は二千年以上にわたり中国思想に影響を与えてきましたが、多くの英語読者にとっては依然として読みづらい部分があります。さまざまな英訳は原文への忠実さと可読性の両立を目指しますが、どの版本が現代の読者にとって理解しやすいかは一目でわかるわけではありません。本稿は現代の言語技術と機械学習を用いて複数の英訳の可読性を測定し、古典が言語や文化を越えて伝わる際の理解のされ方をデータ駆動で考える方法を提示します。

一つの古典に寄せられた多様な声
本研究は、19世紀から21世紀にかけてジェームズ・レッジ、ウィリアム・ジェニングス、D. C. ラウ、エドワード・スリンガーランド、バートン・ワトソンによって作られた『論語』の完全な英訳5点に焦点を当てています。五人はいずれも同じ古典中国語の原典を底本としましたが、作風や解釈の選択はそれぞれ異なります。公平に比較するため、著者らは各訳を中国語本文の伝統的な句の区切りに概ね対応する1412の短い行に分割しました。三点の翻訳をモデルの学習に使い、残る二点を保持して新しいパッセージに対する判定能力を検証しました。
文を測定可能な信号へ変える
研究者らはフレッシュ読みやすさ指標のような単一の既知の公式に頼るのではなく、コーパス内の各行について114の多様な指標を構築しました。いくつかは文長や平均語長といった基本的な特徴を見る従来の可読性指標です。ほかには長い語や稀な語の出現数、語彙の多様性、情報密度といった語彙面の特徴を捉えるものがあります。第三のグループは節の数や特定の文法パターンの頻度など文構造を記述します。最後に現代的な要素として、大規模言語モデル(BERT)が各行の意味的な「典型性」をコーパス内の他の行と比較して推定し、意味レベルでの一貫性を示す簡潔な指標を加えました。
困難さを感じ取る機械を教える
こうした指標を用いて、著者らはXGBoostモデルと単純なバックプロパゲーションニューラルネットワークの二つの機械学習モデルを訓練し、各行の複合的な可読性スコアを予測させました。これらのスコアは九つの従来の公式の合成出力に基づき、モデルが学習するための安定した目標を提供します。訓練前に各指標がスコアとどの程度相関するかを調べたところ、長く多音節で専門的な語を多く含む行、総文字数が多い行、複雑な文構造を持つ行は難度が高く評価される傾向がありました。一方で、細かい文法的なカウントはいくらかしか寄与しない場合もありました。両モデルは保持したデータ上で学習パターンを非常によく再現し、この特徴の組み合わせが『論語』の一節の読みやすさ・読みづらさを大部分捉えていることを示唆しました。

翻訳者を一目で、詳しく比較する
訓練が終わると、モデルはスリンガーランドとワトソンの二つの検証翻訳に適用されました。大まかには、予測されたスコアを最も読みやすい帯から最も難しい帯へと分類し、各訳の行がどの帯にどれだけ分布するかを集計しました。ワトソンの訳は全体的にやや読みやすい傾向が出ており、高可読性帯に入る行が多く、スリンガーランドの訳は長い文や凝った語法を多く用いることがしばしば見られました。より細かく見ると、両訳が大きくずれる個々の句を調査し、難しい行は通常いくつかの要因が組み合わさっていることが分かりました――長い文、入れ子状の節、抽象的または稀な語彙、ひとつの行に詰め込まれた密な注釈的要素など。一方で読みやすい行は短めで直接的な言い回しや単純な語選択を好む傾向がありました。
読者と翻訳者にとっての示唆
専門家でない英語の読者が孔子に触れたいと考えるなら、本研究は生の読書負荷という観点でいくつかの訳が他よりも読み進めやすい道を提供していることを示唆します。翻訳者や学者にとっては、定量的な道具が何千行にわたる難度のパターンを可視化することで、伝統的な精読を補完しうることを示しています。著者らは可読性が良い翻訳の条件の一面に過ぎないこと、原義や文体への忠実さも重要であることを強調します。それでも、文長・構造・語選択が英語で『論語』を読む経験をどのように形作るかを明らかにすることで、この研究は中国古典のよりアクセスしやすい版の開発や、最終的にはより明瞭な越文化的対話に向けた道を示しています。
引用: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
キーワード: 文章の可読性, 機械学習, 論語, 文学翻訳, 自然言語処理