Clear Sky Science · zh

通过枢纽语言的跨语种嵌入对齐与迁移学习实现零样本英—阿萨姆语神经机器翻译

· 返回目录

这为何与日常对话相关

数十亿人使用的大部分语言并未被大型科技公司充分支持。阿萨姆语是印度东北部数百万人的母语,却属于这类语言之一。在网络环境中,这意味着新闻、健康建议和政府信息等以英语发布的内容往往难以触及。本文展示了如何在几乎没有直接训练数据的情况下构建一个强健的英—阿萨姆语翻译系统,方法是巧妙地利用资源更丰富且关系密切的孟加拉语作为桥梁。

用语言桥而非数据山

现代翻译系统通常通过成千上万的配对句子来学习:例如同一句英文与法文的对照。对于阿萨姆语,这类平行语料稀缺。作者避开这一瓶颈,通过使用更多可得的英—孟加拉配对数据进行训练,然后将学到的知识迁移到阿萨姆语上。由于孟加拉语与阿萨姆语在语法、词汇和文字上有许多相似之处,系统可以把孟加拉语当作踏脚石,学习那些同样适用于阿萨姆语的模式,而在训练期间并不需要看到任何英—阿萨姆语句对。

将三种语言带入共享空间

该方法的核心是一个名为 mBART 的多语种模型,它已经掌握了多种语言的一些通用知识。研究人员在英—孟加拉翻译数据上微调该模型,然后把英语、孟加拉语和阿萨姆语的词表示映射到一个共同的“意义地图”中。他们使用一种称为 Procrustes 对齐的数学方法,通过旋转和伸缩这些词向量空间,使三种语言中具有相似含义的词彼此靠近。这个共享空间意味着,如果系统学会了如何把一个英语词翻译成孟加拉语,它就可以推断出在地图上处于相同邻域的阿萨姆语相应表达。

Figure 1
Figure 1.

处理罕见词并保持正确语言

低资源语言的问题不仅是缺乏句对,还包括词汇缺失——尤其是人名、专业术语和非正式俚语。为应对这一点,系统将单词拆分成更小的单位(子词),即便是未见过的术语也可以由熟悉的构件拼出。对于仍然落在词表之外的少数情况,系统会在共享意义空间中找到最近的已知邻居并借用其表示。同时,模型通过在输入处添加特殊的语言标签,明确告知应生成哪种语言。这些标签与对齐的词向量空间一起,显著减少了多语种系统中常见的失误:意外地以相近的其他语言(例如把孟加拉语当作阿萨姆语)给出答案。

将框架付诸检验

为了评估这些技巧是否有效,作者构建了一个经过严格检查的测试集,包含来自新闻、维基百科、对话和技术写作的两千多条英—阿萨姆语句对。他们将自己的系统与若干替代方案进行了比较:直接用英—阿萨姆数据训练的小模型和大模型、没有语言标签的多语种模型,以及传统的两步流水线(先将英语译成孟加拉语再译成阿萨姆语)。在多个标准自动评测指标上,他们的零样本系统——在训练时没有任何英—阿萨姆句对——击败了所有这些对手,甚至优于一个用五万条真实英—阿萨姆句子训练的更大模型。以阿萨姆语为母语的人类评审认为该系统的翻译在意义准确性和流畅性方面都更好,错误率大约下降了三分之一。

Figure 2
Figure 2.

对小语种使用者的意义

简单来说,这项研究表明,为代表性不足的语言服务并不总是需要大量直接的翻译数据。通过选择像孟加拉语这样语言学上接近且资源更丰富的“辅佐”语言、精心对齐不同语言的词表示,并清楚地标注期望的输出语言,作者实现了强健的英—阿萨姆语翻译,且速度足以满足实际使用。他们的框架达到了理想的、完全监督系统质量的九成以上,同时推理速度快近三分之一。这为将高质量机器翻译推广到其他有更好研究基础但自身语料稀少的低资源语言提供了有前景的方案。

引用: Nath, B., Gulzar, Y. Zero-shot English–Assamese neural machine translation via pivot-based cross-lingual embedding alignment and transfer learning. Sci Rep 16, 13732 (2026). https://doi.org/10.1038/s41598-026-44209-w

关键词: 机器翻译, 阿萨姆语, 低资源自然语言处理, 跨语种嵌入, 枢纽语言