Clear Sky Science · zh

句子与从句长度的概率分布能否区分翻译方向？

2026-02-25 · 返回目录

为什么翻译中文本的句长很重要

阅读译文时，我们很少会注意文本的微小构成要素：每个句子或从句有多长，某些长度出现的频率如何。然而，这些模式能够悄然揭示是谁在翻译，以及翻译是朝译者母语进行还是朝第二语言进行。本文探讨句子和从句长度的统计指纹是否比简单平均值更可靠地区分翻译方向，为译文如何不同于普通写作提供了一种新的视角。

超越简单平均值的观察

几十年来，研究者将句子长度作为写作风格、作者身份乃至体裁的粗略指标。早期研究侧重于诸如每句平均词数等基本度量，但这些指标常被证明过于粗糙，无法解决例如作者归属的争议。近来的工作转向完整的分布——短句、中句和长句出现频率的整体情况——以发掘更微妙的模式。本研究将这种分布式方法引入翻译研究领域，考察它能否为长期讨论的翻译方向问题提供线索：即是将文本译入母语（L1），还是译入第二语言（L2）。

精心匹配的一套故事语料

为检验这一想法，作者构建了一个严格控制的语料库，基于中国影响深远的作家鲁迅的十篇短篇小说。每篇故事都有由四位高水平译者完成的多种英文译本。两位译者为英语母语者，从中文译为其母语（L1）；两位为中文母语者，向英语译出（L2）。研究者使用定制脚本将英文文本切分为句子和称为从句的更小单元，然后统计每个单元包含的词数。他们计算了简单平均值，但更重要的是，使用定量语言学中已建立的概率分布对长度的整体分布进行建模。

句子模式揭示的内容

第一个令人意外的发现是，L1 与 L2 译本的平均句长几乎相同，统计检验显示没有显著差异。表面上，两组译者产生的句子总体长度相近。然而，当作者检视句子长度的分布时，隐藏的对比显现出来。将句子分为若干区间（例如 1–5 词、6–10 词等）并拟合一种称为扩展正负二项（Extended Positive Negative Binomial）的复杂分布后，模型的两个参数在 L1 与 L2 译本间持续存在差异。通俗地说，两种翻译方向都偏向中等长度的句子，但“峰形”的具体轮廓以及频率向非常短或非常长句子衰减的方式，包含了关于译向的强有力线索。

从句模式补充的信息

从句——句子内部的更小单元——讲述了更细腻的故事。在这里，平均长度确实存在差异：译入第二语言的译本往往具有略长的从句和更大的变异。然而，这些平均值受到各个译者个人风格的强烈影响，限制了它们用于分类译向的效用。当作者考察从句长度的秩—频率模式（即最常见长度出现的频率，然后是第二常见的，依此类推）并拟合一种称为超泊松（Hyperpoisson）的分布时，模型参数对翻译方向高度敏感，同时也捕捉到个别风格指纹。相比之下，当他们从另一个角度考察从句长度——用 Shenton–Skees–几何模型拟合的长—频率模式——这些参数不再很好地区分译向，但仍然反映出译者之间的风格差异。

为何这些隐含模式重要

总体而言，研究表明句子或从句长度的简单平均值是理解翻译的粗糙工具。携带最有信息的信号是长度模式的完整概率形态。两种特别有力的组合尤为突出：句子长度的长—频率分布与从句长度的秩—频率分布。结合这两类模型，可以可靠地判断一部译作是译入母语还是译入第二语言，即便文本表面看起来非常相似。对非专业读者而言，结论是：译文中蕴含着微妙的统计痕迹，反映了其生产方式——这些痕迹虽不易被人直接感知，但计算机可以识别。此类技术或将有助于评估译文质量、描绘译者风格或区分人类与机器翻译，同时加深我们对语言在不同语域间迁移时行为的理解。

引用: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

关键词: 翻译方向, 句子长度分布, 从句长度, 定量语言学, 鲁迅译作