Clear Sky Science · ru
Нулевая подготовка: нейронный машинный перевод с английского на ассамский через опорное выравнивание кросс-лингвистических векторных представлений и перенос обучения
Почему это важно для повседневного общения
Миллиарды людей говорят на языках, которые крупные технологические компании едва поддерживают. Ассамский, на котором говорят миллионы на северо-востоке Индии, — один из таких языков. В сети это означает, что новости, медицинские советы и официальная информация на английском часто недоступны. В статье показано, как построить качественную систему перевода с английского на ассамский даже при почти полном отсутствии прямых обучающих данных, разумно используя бенгальский — близкий и лучше обеспеченный ресурсами язык — в качестве «моста».
Языковой мост вместо горы данных
Современные системы перевода обычно учатся на миллионах пар предложений: одна и та же строка, например, на английском и французском. Для ассамского такие параллельные данные редки. Авторы обходят это узкое место, обучая модель на парах английский–бенгальский, где данных больше, а затем перенося получённые знания на ассамский. Поскольку бенгальский и ассамский имеют схожую грамматику, лексику и письменность, систему можно использовать так, будто бенгальский — промежуточная ступень: она усваивает шаблоны, которые также применимы к ассамскому, не видя при этом прямых пар английский–ассамский во время обучения.
Объединение трёх языков в общем пространстве
В основе подхода лежит многоязычная модель mBART, которая уже «знает» что-то о многих языках. Исследователи дообучают эту модель на переводах английский–бенгальский, а затем помещают слова английского, бенгальского и ассамского в общее «пространство смысла». Они делают это с помощью математической процедуры, называемой выравниванием Прокруста (Procrustes), которая поворачивает и масштабирует векторные карты слов так, чтобы слова с похожими значениями в трёх языках оказывались рядом. Такое общее пространство означает: если система научилась переводить английское слово на бенгальский, она может вывести, как выразить близкое по смыслу ассамское слово, которое живёт в том же районе на карте. 
Работа с редкими словами и сохранение нужного языка
У малоресурсных языков проблемы не только с отсутствием пар предложений, но и с нехваткой слов — особенно имён, технических терминов и неформального сленга. Чтобы справиться с этим, система разбивает слова на более мелкие части (субслова), так что даже невидимые термины можно собрать из знакомых фрагментов. Для редких случаев, которые всё же остаются вне словаря, она находит ближайшего известного соседа в общем пространстве смыслов и заимствует его представление. Одновременно модели явно указывают, на каком языке она должна выдавать текст, при помощи специальных языковых меток на входе. Эти метки вместе с выровненными векторными пространствами резко снижают типичную ошибку многоязычных систем: непреднамеренный ответ на близком, но неправильном языке, например на бенгальском вместо ассамского.
Проверка метода на практике
Чтобы оценить, работают ли все эти приёмы, авторы собрали тщательно проверенный тестовый набор из более двух тысяч пар предложений английский–ассамский из новостей, Википедии, разговорной речи и технических текстов. Они сравнили свою систему с несколькими альтернативами: маленькими и большими моделями, обученными напрямую на данных английский–ассамский, многоязычной моделью без языковых меток и обычным двухэтапным конвейером, переводящим сначала с английского на бенгальский, а затем с бенгальского на ассамский. По нескольким стандартным автоматическим метрикам их zero-shot система — обученная без каких-либо прямых пар английский–ассамский — превзошла все эти варианты, даже опередив значительно большую модель, обученную на 50 000 подлинных пар английский–ассамский. Человеческие оценщики-носители ассамского отметили, что переводы новой системы точнее по смыслу и более беглы, а доля ошибок сократилась примерно на треть. 
Что это значит для носителей малых языков
Проще говоря, исследование показывает, что не всегда нужны горы прямых параллельных данных, чтобы обслуживать носителей недопредставленных языков. Выбрав лингвистически близкий «помогающий» язык, такой как бенгальский, аккуратно выровняв представления слов из разных языков и явно указав желаемый язык вывода, авторы добились качественного перевода с английского на ассамский, достаточно быстрого для практического использования. Их схема достигает более девяноста процентов качества идеальной полностью контролируемой системы, при этом работа на выводе почти на треть быстрее. Это даёт обнадёживающий рецепт для предоставления высококачественного машинного перевода множеству других малоресурсных языков в мире, у которых есть лучше изучённые родственники, но очень мало собственных данных.
Цитирование: Nath, B., Gulzar, Y. Zero-shot English–Assamese neural machine translation via pivot-based cross-lingual embedding alignment and transfer learning. Sci Rep 16, 13732 (2026). https://doi.org/10.1038/s41598-026-44209-w
Ключевые слова: машинный перевод, ассамский язык, NLP для малоресурсных языков, кросс-лингвистические встраивания, опорный язык