Clear Sky Science · ru
Оценка литературного перевода крупными языковыми моделями: многомерная оценка качества перевода «Пограничного города» Шэна Цунвэня
Почему это исследование важно для читателей и писателей
По мере того как такие инструменты, как ChatGPT и другие крупные языковые модели, становятся частью повседневной жизни, возникает простой вопрос: смогут ли эти системы действительно заменить человеческих переводчиков, особенно когда речь идет о любимых романах? Это исследование тщательно рассматривает этот вопрос, сравнивая переводы классического китайского произведения Шэна Цунвэня Пограничный город на английский, выполненные несколькими ведущими ИИ-моделями, с уважительным переводом человека.
Деревенская история встречает искусственный интеллект
Пограничный город славится своим мягким изображением сельской жизни на юго-западе Китая, поэтическим языком и плотной сетью местных обычаев и верований. Эти особенности делают роман идеальным полигоном: переводчику нужно передать не только события, но и ощущение тумана над лодками, ритм народных песен и вес традиционных ценностей. Авторы выбрали первые две главы романа и собрали пять английских версий: четыре, созданные крупными языковыми моделями (GPT-4, GPT-4o, Gemini и китайская система WXYY 4.0 Turbo), и одну, выполненную ученым-переводчиком Джеффри Кинкли, чей перевод 2009 года широко признан за чувствительность к стилю и культуре.

Как оценивались переводы
Чтобы уйти от интуитивных представлений о том, что «звучит правильно», исследователи использовали подробную методику под названием Multidimensional Quality Metrics. Вместо простой проверки соответствия слов оригиналу этот подход разделяет ошибки по типам и оценивает их серьезность. Команда сосредоточилась на трех ключевых вопросах: точна ли передача смысла? сохраняется ли тон и повествовательный стиль автора? и насколько хорошо отражены культурные детали — понятны ли они читателям, не потеряв своей аутентичности? С этими задачами два обученных аннотатора сравнивали каждое предложение китайского текста с каждой версией перевода, отмечая пять основных типов ошибок: неверный перевод, упущение, сверхперевод (добавление лишнего материала), культурная неверность и более широкие дискурсивные проблемы, нарушающие плавность повествования.
Где машины спотыкаются
Результаты выявили четкие закономерности. Все четыре ИИ-системы выдали беглый английский, но часто ошибались в тончайших нюансах. Неверный перевод оказался самой распространенной проблемой: например, старые медные монеты превратились в современное «cash», что тихо изменяет историческую атмосферу деревни. Gemini терял наибольшее количество материала, иногда пропуская описательные фразы, которые связывают персонажей или создают атмосферу. GPT-4 чаще всего добавлял оценочную лексику, превращая деликатное намекание на роман в полноценный «роман», что меняет восприятие героев у читателя. Культурные отсылки оказались особенно уязвимы: предметы повседневной жизни, связанные с ритуалом, как ладан и свечи, или имя легендарного героя часто утончаются, модернизируются или воспринимаются слишком буквально. На уровне целых абзацев некоторые модели тонко переставляли центра персонажей в метафоре или сцене, ослабляя ключевые связи, например эмоциональную привязанность между девочкой Цуйцуй и ее дедом.
Ближе к сильным сторонам каждой модели
Не все системы показали одинаковые результаты. GPT-4o, более новая и оптимизированная модель, постоянно допускала меньше ошибок, чем GPT-4 почти по всем категориям, что указывает на то, что тщательная настройка может быть важнее простого размера модели. Она реже опускала содержимое и меньше искажала фразы, а также склонялась к более цельному сохранению истории по предложениям. Gemini, напротив, демонстрировала наибольшую слабость в упущениях, особенно в отрывках, насыщенных образностью и культурными намеками. WXYY 4.0 Turbo, несмотря на обучение в китайском контексте, явно не превзошла зарубежные системы в отрывках, богатых культурой; она по-прежнему воспринимала некоторые исторические и ритуальные термины как обычные современные предметы. Во всех машинных версиях перевод человека оставался наиболее надежным в переплетении смысла, настроения и культурного слоя.

Что это значит для будущего чтения в переводе
Для повседневных задач и простых текстов крупные языковые модели уже предлагают впечатляющую помощь. Но это исследование показывает: когда речь идет о литературных произведениях вроде Пограничного города, им все еще не хватает жизненно важных пластов смысла и ощущения. Лучший из протестированных моделей, GPT-4o, оказался ближе к идеалу, чем другие, но по-прежнему нуждается в человеческом надзоре, особенно в вопросах культуры и структуры повествования. Авторы утверждают, что более точные подсказки, целенаправленное обучение и систематическая человеческая постредактура необходимы, если ИИ должен помогать, а не заменять литературных переводчиков. Для читателей посыл ясен: машинный результат может служить полезным черновиком или подспорьем, но полная эмоциональная и культурная жизнь романа по-прежнему зависит от человеческого мастерства.
Цитирование: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y
Ключевые слова: литературный перевод, крупные языковые модели, качество машинного перевода, китайская литература, культурные нюансы