Clear Sky Science · zh

评估大型语言模型的文学翻译:对沈从文《边城》的多维质量评估

· 返回目录

这项研究为何对读者与作家重要

随着 ChatGPT 等大型语言模型进入日常生活,人们开始提出一个简单却关键的问题:这些系统能否真正取代人类译者,尤其是在翻译广受喜爱的小说时?本研究通过仔细审视若干领先的人工智能模型如何将中国经典小说沈从文的《边城》译成英文,并将其成果与一位受人尊敬的人类译者的版本进行比较,来回应这一问题。

一个乡村故事遇上人工智能

《边城》以其对中国西南乡村生活的温柔描绘、诗意的语言以及密集的地方风俗与信仰网络而著称。这些特点使它成为理想的测试案例:任何译者都必须不仅传达人物所做之事,还要捕捉河上小船之雾、民歌的节奏以及传统价值观的分量。作者们选择了小说的前两章,收集了五种英文译本:四种由大型语言模型生成(GPT-4、GPT-4o、Gemini 以及中文系统 WXYY 4.0 Turbo)和一种由人文学者兼译者 Jeffrey Kinkley 完成的人工译本,他 2009 年的译本因对风格与文化的敏感把握而广受赞誉。

Figure 1
Figure 1.

翻译如何被评判

为了超越对“听起来对不对”的主观直觉,研究者使用了名为多维质量衡量(Multidimensional Quality Metrics)的详细框架。该方法不仅检查用词是否与原文一致,而是将错误按类型分类并评估其严重性。研究团队关注三个大问题:意义是否准确?译文是否忠实于作者的语气与叙事风格?它是否在不抹除原有风味的情况下,合理处理文化细节?基于这些问题,两名受过训练的注释员将中文文本的每一句与各译本逐句对比,标记出五类主要错误:误译、省略、过度翻译(添加不必要的内容)、文化误译以及损害故事连贯性的更广泛话语层面问题。

机器易犯的失误

结果呈现出清晰的模式。所有四个 AI 系统都生成了流畅的英文,但在关键细微处常有失手。误译是最常见的问题:例如,旧铜钱被译成听起来更现代的“cash(现金)”,悄然改变了村庄的历史质感。Gemini 的删减最多,有时跳过那些有助于联结人物或营造氛围的描述性短语。GPT-4 最常加入额外的带有判断性的措辞,将含蓄的恋情暗示变成彻底的“婚外情”,从而改变读者对人物的看法。文化指涉尤其脆弱:与仪式生活相关的日常物件,如香与蜡烛,或一个传奇英雄的名字,经常被扁平化、现代化或过于字面化处理。在段落层面,某些模型微妙地改变了隐喻或场景中谁处于中心的位置,从而削弱了关键关系,例如小翠与她祖父之间的情感纽带。

相对优势的深入观察

各系统的表现并不相同。较新且更优化的模型 GPT-4o 在几乎所有类别中一贯犯错更少,表明精细调优可能比单纯的模型规模更为重要。它较少省略内容、误译较少短语,并且倾向于在句与句之间保持故事的完整性。相比之下,Gemini 在删减方面表现出最大弱点,尤其在充满意象和文化暗示的段落中。尽管 WXYY 4.0 Turbo 在中文语境下训练,它在文化密集段落上并未明显优于外来模型;它仍将一些历史与仪式术语当作普通的现代物品来处理。在所有这些机器译本中,人工译本在把意义、情绪与文化编织在一起方面仍然最为可靠。

Figure 2
Figure 2.

这对翻译阅读的未来意味着什么

对于日常任务与直白文本,大型语言模型已经能提供令人印象深刻的帮助。但本研究显示,对于像《边城》这样的文学作品,它们仍然遗漏了关键的感知层次与情感。表现最好的模型 GPT-4o 比其他模型更接近,但在文化与故事结构等方面仍需要人类监督。作者们认为,如果 AI 要支持而非取代文学译者,就需要更好的提示词、更有针对性的训练以及系统化的人类后期编辑。对读者而言,结论很明确:机器产出可以作为有用的草稿或辅助工具,但小说的完整情感与文化生命仍依赖于人类的艺术创造力。

引用: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y

关键词: 文学翻译, 大型语言模型, 机器翻译质量, 中国文学, 文化细微差别