Clear Sky Science · ja

文学的自伝翻訳におけるAIの性能を探る：AIモデルは人間の翻訳にどれだけ近いか

2026-03-07 · 一覧に戻る

なぜ一般の読者に関係があるのか

現在、多くの人がオンライン翻訳ツールに頼り、なかにはAIを使って外国語で書かれた小説や回想録を読む人もいます。しかし、こうしたシステムは人生の物語が持つ感情やリズム、文化的深みを本当に捉えられるのでしょうか。本研究は、評価の高い中国の文学的自伝を三つの一般的なAIシステムとプロの人間翻訳者がどのように扱うかを掘り下げ、機械が得意な点、つまずく点、そしてそれがスクリーン越しに世界文学に触れる読者にとって何を意味するかを明らかにします。

言葉を越えて語られる物語

研究者らは、『大河の流れ』を中心に検討します。これは個人的な記憶と戦時中の中国や戦後台湾という激動の歴史を織り交ぜた高く評価された中国語の自伝です。その英語版は、事実の正確さと抑制された情感を両立させるために著者と緊密に協働した専門翻訳チームが数年かけて作成しました。この慎重な人間による翻訳を基準とし、対照として三つのAI出力を比較します：Google Translateのニューラル機械翻訳、汎用の大規模言語モデル（ChatGPT-4o）、そして推論重視の新しいモデル（OpenAI-o1）です。すべて、典型的なユーザーが使うような日常のデフォルト設定で同じ章を中国語から英語へ翻訳するよう求められました。

言語の“フード”を覗く

翻訳の「良し悪し」の直感だけに頼らないために、本研究はCoh-Metrixというツールを用いて英語テキストの百以上の特徴を測定します。これには動詞や形容詞の数のような単純なカウントから、文と文のつながりの緊密さ、語の具体性、読みやすさといった微妙な性質まで含まれます。研究者はこれらの指標を語彙選択、文構造、明示的なアイディアのつながり、より深い概念的連係、文長などの表層的特徴、総合的な可読性という六つの広い領域に分類します。これらの次元ごとにスコアを比較することで、各AIの文体や構造が人間の翻訳にどの程度似ているかを定量的に示せます。

異なるAIの振る舞い

三つのAIシステムはそれぞれ異なる「個性」を持つことがわかりました。Google Translateはより一般的な語彙と比較的単純な文を使う傾向があり、読みやすさは高い一方で語り手の個人的な声の豊かさは乏しくなりがちです。人称の「私たち」のような一人称複数形の代名詞や、生き生きとした動詞が人間訳より少なく、自伝にとって重要な共有体験の感覚が弱まります。対照的に二つの大規模言語モデルは形容詞や副詞、幅広い語彙を好みます。彼らの表現はより凝った、動的に感じられることがあり、人間の翻訳で強調されなかった描写を付け加えることがあります。これにより一部では明瞭さが増すこともありますが、本来控えめな語りの力に依る箇所ではその抑制された調子を損なうリスクもあります。

深み、首尾一貫性、感情の底流

文や段落をまたいだアイディアのつながりに関しては、いずれのAIも人間翻訳者に完全には及びません。人間訳は繰り返される名詞、慎重に選ばれた接続語、明確な因果の手がかりを一貫して使い、複雑な出来事や感情の変化を読者が追いやすくしています。AIはしばしばそのような明示的な標識に頼らない傾向があります。同時に、AIは行為や因果を強調しすぎることがあり、多くの因果関係や意図を示す動詞を使って状況をより直接的かつ字義通りにしてしまうことがあります。推論重視のモデルであるOpenAI-o1は特に余分な詳細を推定しやすく、例えば政治指導者のフルネームを特定したり、「状況の変化」を「危機」にまで置き換えたりします。こうした推測は物語をより直接的に感じさせる一方で、著者が実際に書いたものから離れてしまう可能性があります。

どのAIが最も人間らしく感じられるか

多くの測定を総合すると、ChatGPT-4oが人間翻訳者のプロファイルに最も近づいています。ChatGPT-4oは一般にGoogle Translateより豊かな語彙と文脈に配慮した言い回しを提供し、OpenAI-o1が犯しがちな大胆な解釈的飛躍のいくつかを避けます。Google Translateはニュアンスで劣るものの、表層的な語に忠実であることが多く、非専門の読者には非常に読みやすいテキストを作ります。推論重視のOpenAI-o1は「より深く考える」よう設計されているにもかかわらず、この特定の課題では全体的に人間翻訳と最も乖離していました。推論力の強さが特定表現を言い換えたり膨らませたりする方へ働き、文学的な文体や文化的な正確性にそぐわない結果を生むことがあるからです。

読者と翻訳者にとっての意味

一般読者にとっての結論は、今日のAIはすでに滑らかで時に印象的な文学的自伝の翻訳を生成できる一方で、声の一貫性、微妙な感情、文化的ニュアンスの保持においては専門家の人間翻訳者に及ばない、ということです。本研究で試されたシステムの中では、ChatGPT-4oが現時点でプロの仕事に最も近い近似を示し、実用的な可読性ではGoogle Translateも遜色ありません。推論重視モデルはこの特定の課題では遅れをとりました。しかし、人間の翻訳者は依然として不可欠です。歴史、文化、文体を総合的に判断する能力により、人間は機械が部分的にしか再現できない一貫した、感情の層を備えた物語を築き上げます。AIツールが進化を続けるとしても、本研究はそれらを文学翻訳者の代替ではなく、人生の物語を言語を越えて完全に伝えるために人間の判断を必要とする強力な補助として見るのが現実的だと示唆しています。

引用: Huang, Y., Cheung, A.K.F. Exploring AI’s performance in literary autobiography translation: how closely do AI models match human translation. Humanit Soc Sci Commun 13, 518 (2026). https://doi.org/10.1057/s41599-026-06630-4

キーワード: 文学翻訳, 機械翻訳, 大規模言語モデル, 中国語の自伝, AI対人間翻訳者