Clear Sky Science · zh
从接受导向视角评估 AI 生成字幕翻译的质量:对话剧《老友记》中 ChatGPT、人类与神经机器翻译的比较研究
为何喜剧字幕至关重要
流媒体让外国电视剧成为日常娱乐,但如果字幕不到位,笑点就可能失效。本研究考察了不同类型的中英字幕在美国经典情景喜剧《老友记》上的表现,并提出了一个对任何观众都很重要的简单问题:像 ChatGPT 这样的 AI 工具,是让观看更轻松还是更难受?
制作字幕的不同方式
研究者比较了来自《老友记》首集片段的三类字幕。第一组来自一个专业的粉丝组,他们精心翻译了台词。第二组使用了常见的在线翻译引擎。第三组则由 ChatGPT 生成,仅被要求将英语台词翻成自然的中文。所有字幕均为双语,中译在上、英译在下,且包含涉及文字游戏、讽刺或情绪转折等在喜剧中尤为关键的难点。
为了解观众反应,团队向数百名中国参与者发送了在线测试包。每位参与者观看九个片段:三个场景,每个场景以不同字幕版本重复出现,顺序随机以免辨认。每看完三段后,他们选择哪组字幕最有助于理解剧情,并在一个简单的五点量表上评分。最后一个问题询问他们最看重字幕的哪些方面,例如准确性、易懂程度或与画面衔接的流畅性。

从两个角度衡量字幕质量
研究不仅止于主观意见。作者还将三种字幕版本放入一个专业评分系统,评估字幕与原意的匹配度、可读性和画面适配性。该系统记录不同类型的错误,从笨拙措辞到严重改动含义,并将这些错误转化为总体质量分。通过将这些技术评分与观众评分对比,研究者可以判断专家式评估是否与日常观众体验一致。
在三个场景中,ChatGPT 的字幕在专家评分和观众满意度上均明显优于传统机器翻译引擎的结果。在某些情况下,尤其是一个片段中,ChatGPT 的版本在技术评估上甚至超过了专业字幕。观众常觉得其译文自然且易于理解,许多人无法可靠地区分它与人工翻译的差别。然而,平均来看,人类制作的字幕在观众评分上仍略占优势,尤其在呈现幽默或富含文化意涵的表达时更胜一筹。

观众背景影响他们的判断
研究发现,受众背景影响他们对字幕的评判力度。高中生倾向于对三种版本给出相似评分,有时会像或甚至比原始粉丝字幕更喜欢 ChatGPT 的译本。大学生和研究生则更为挑剔,更容易发现版本差异。曾经看过《老友记》的观众对细微差别也更敏感,偏好原始字幕;而新观众则难以区分不同版本。是否学过语言对评分影响较小,总体教育水平与对该剧的熟悉度更为关键。
为何 AI 仍需人工修订
论文中的具体例子既展示了 AI 字幕的潜力,也揭示了其局限。在某些笑点中,ChatGPT 给出了比专业译本更顺畅、生动的中文,使幽默更直接;而在其他时刻,它亦会直译而错过隐含意义或文化提示,令观众困惑。调查确认观众最关心的是能否理解剧情,其次是准确性和与画面的时序衔接。作者结论认为,像 ChatGPT 这样的 AI 工具已比旧一代机器翻译在情景喜剧字幕上表现更好,并能在某些情况下匹敌人工翻译,但仍需谨慎的后期编辑与校对。当前最好的做法是将 AI 的速度与人工判断结合,帮助更多观众在不丢失幽默核心的前提下享受外语节目。
引用: Chen, S., Hu, X. Evaluating the quality of AI-generated subtitle translations from a reception-oriented perspective: a comparative study of ChatGPT, human, and neural machine translations in sitcoms. Humanit Soc Sci Commun 13, 748 (2026). https://doi.org/10.1057/s41599-026-07414-6
关键词: 字幕, 视听翻译, ChatGPT, 情景喜剧, 观众接受