Clear Sky Science · ru

Оценка читабельности английских переводов китайской классики: исследование на основе XGBoost и нейронных сетей обратного распространения

· Назад к списку

Почему древняя мудрость всё ещё нуждается в понятном английском

«Беседы» Конфуция формировали китайскую мысль более двух тысяч лет, однако многим читателям на английском языке текст всё ещё даётся нелегко. Разные переводы стремятся одновременно быть верными оригиналу и читабельными, но не всегда ясно, какие версии понятнее для современной аудитории. В этой статье используются современные языковые технологии и алгоритмы машинного обучения для измерения читабельности нескольких английских переводов «Бесед», предлагая основанный на данных способ оценить, как классические произведения переходят между языками и культурами.

Figure 1
Figure 1.

Множество голосов для одной классической книги

Исследование сосредоточено на пяти полных английских переводах «Бесед», выполненных в XIX–XXI веках Джеймсом Леггом, Уильямом Дженнингсом, Д. С. Лау, Эдвардом Слингерлендом и Бертоном Уотсоном. Все пятеро переводчиков работали с тем же классическим китайским оригиналом, но делали разные стилистические и интерпретативные выборы. Чтобы корректно сравнить их, авторы разбили каждый перевод на 1412 коротких строк, примерно соответствующих традиционному делению изречений в китайском тексте. Три перевода использовались для обучения моделей, а два оставили для тестирования того, как модели справляются с новыми отрывками.

Превращение предложений в измеримые сигналы

Вместо того чтобы полагаться на одну известную формулу вроде Flesch Reading Ease, исследователи составили гораздо более богатый набор из 114 индикаторов для каждой строки корпуса. Часть из них — традиционные формулы читабельности, оценивающие базовые характеристики, такие как длина предложения и средний размер слова. Другие фиксировали особенности словарного запаса: сколько встречается длинных или редких слов, насколько разнообразен выбор слов и какова плотность информации. Третья группа описывала структуру предложения — например, сколько придаточных в предложении или как часто встречаются определённые грамматические схемы. Наконец, была добавлена современная составляющая: большая языковая модель (BERT) оценивала, насколько семантически «типична» каждая строка по сравнению с остальным корпусом, давая компактный индекс когерентности на уровне смысла.

Обучение машин чувствовать сложность

Используя эти индикаторы, авторы обучили две модели машинного обучения — модель XGBoost и простую нейронную сеть с обратным распространением — предсказывать составные баллы читабельности для каждой строки. Эти баллы основывались на комбинированном выводе девяти традиционных формул, что давало моделям устойчивую цель для обучения. До обучения они изучили, насколько сильно каждый индикатор коррелирует с оценками. Строки, насыщенные длинными, многосложными или технически трудными словами, как правило, оценивались как более сложные, так же как строки с большим числом символов и более сложной синтаксической структурой. Напротив, некоторые тонкие грамматические подсчёты играли лишь скромную роль. Обе модели машинного обучения очень хорошо воспроизводили паттерны обучения на отложенных данных, что говорит о том, что такое сочетание признаков захватывает большую часть того, что делает отрывок из «Бесед» лёгким или трудным для чтения.

Figure 2
Figure 2.

Сравнение переводчиков в общих чертах и в деталях

После обучения модели были применены к двум тестовым переводам — Слингерленда и Уотсона. На широком уровне исследователи сгруппировали предсказанные баллы по диапазонам от самых простых до самых сложных и посчитали, сколько строк каждого перевода попало в каждый диапазон. Перевод Уотсона оказался в целом немного легче: больше его строк оказалось в зонах высокой читабельности, тогда как у Слингерленда чаще встречались более длинные предложения и более витиеватая формулировка. На более тонком уровне команда изучила отдельные изречения, в которых два переводчика резко расходились. В таких случаях более сложные строки обычно сочетали несколько факторов — более длинные предложения, вложенные придаточные, абстрактный или редкий словарь и плотный комментарий, упакованный в одну строку, — в то время как более простые строки склонялись к короткой, более прямой фразировке и более простому выбору слов.

Что значат эти выводы для читателей и переводчиков

Для неспециализированных читателей, желающих подступиться к Конфуцию на английском, исследование показывает, что некоторые переводы предлагают более плавный путь, по крайней мере с точки зрения затрачиваемого читательского усилия. Для переводчиков и учёных это демонстрирует, как количественные инструменты могут дополнять традиционное внимательное чтение, выявляя паттерны сложности на тысячах строк. Авторы подчёркивают, что читабельность — лишь один аспект хорошего перевода; также важны верность исходному смыслу и литературный стиль. Тем не менее, выявляя, как длина предложения, структура и выбор слов формируют опыт чтения «Бесед» на английском, эта работа указывает путь к более доступным изданиям китайской классики и, в конечном счёте, к более ясным межкультурным беседам.

Цитирование: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w

Ключевые слова: читабельность текста, машинное обучение, Беседы Конфуция, литературный перевод, обработка естественного языка