Clear Sky Science · ru

SCAD: самоконтрастное обучение для обнаружения аллюзий в китайских поэмах

· Назад к списку

Скрытые послания в древних стихах

Классические китайские поэмы полны скрытых отсылок к известным сюжетам, легендам и историческим персонажам. Эти «аллюзии» придают стихам эмоциональную глубину и культурное богатство, но одновременно усложняют их понимание для современных читателей — и для компьютеров. В статье представлена новая система искусственного интеллекта SCAD, которая автоматически обнаруживает такие зарытые отсылки в большом масштабе, открывая путь для более умных цифровых инструментов для чтения, преподавания и исследования китайской литературы.

Почему аллюзии важны в поэзии

На протяжении веков китайские поэты использовали аллюзии как своего рода литературный шорткат. Намекнув на хорошо известную историю — например, на идиллическую затерянную деревню или скорбящую богиню реки — поэт мог выразить сложные чувства всего несколькими иероглифами. Проблема в том, что эти намёки часто тонки. Стих может никогда не называть прямо источник аллюзии; вместо этого он пробуждает образ места, предмета или картины, связанных с этой традицией. Поскольку одно и то же слово в зависимости от контекста может отсылать к разным историям, даже продвинутые компьютерные системы испытывают трудности с надежным распознаванием, какую именно аллюзию использует стих, особенно когда возможных кандидатов тысячи и имеется ограниченное количество размеченных данных для обучения.

Figure 1
Figure 1.

Обучение машин через сравнение

Авторы решают эту задачу с помощью подхода, называемого самоконтрастным обучением, специально адаптированного для классического китайского языка. Вместо того чтобы просить людей разметить каждое стихотворение с правильной аллюзией, они собирают большую коллекцию пар «стих — аллюзия» с кураторского сайта, в котором задокументировано, как более 14 000 стихов ссылаются на 1 025 конкретных аллюзий. Для каждой истинной пары — стиха, который действительно использует ту или иную историю — автоматически генерируются «негативные» пары, сопоставляя тот же стих с множеством нерелевантных аллюзий. SCAD учится отличать подлинную пару от ложных, сближая в своём внутреннем представлении связанные тексты стихов и аллюзий и раздвигая несвязанные.

Модель, настроенная для древних китайских текстов

В основе SCAD лежит SikuBert, языковая модель, обученная на больших корпусах прежнемодных китайских текстов. Система подает и стих, и аллюзию (включая оригинальный фрагмент-источник) в совмещённый энкодер, что позволяет модели сосредоточиться на том, как конкретные фразы в стихотворении соотносятся с деталями истории. К этому энкодеру добавлены лёгкие «адаптеры», так что обучать приходится лишь небольшое число новых параметров, что делает дообучение эффективным. Улучшенная функция потерь придаёт дополнительный вес самым трудным негативным примерам — вводящим в заблуждение аллюзиям, которые модель склонна выбирать, — чтобы SCAD учился на своих самых распространённых ошибках, а не только на простых случаях.

Превосходство над существующими подходами

В сравнительных испытаниях с различными альтернативами — включая ранние глубокие нейросети, правило-ориентированные методы и даже большие универсальные языковые модели — SCAD демонстрирует заметно более высокую точность при указании правильной аллюзии в стихе. Модель не только в среднем ранжирует правильный ответ выше, но и выбирает его как первый вариант примерно в четырёх из пяти тестовых случаев, что является явным преимуществом по сравнению с предыдущими методиками. Абляционные исследования показывают, что каждое конструктивное решение вносит вклад: предобучение на классическом, а не современном языке, включение полного текста источника аллюзии, добавление адаптеров и перевес сложных негативов — всё это улучшает результаты, особенно для редких или тонких аллюзий.

Figure 2
Figure 2.

Открытие новых связей и построение карт знаний

Помимо чистой точности, авторы изучают, как SCAD может обобщать и объяснять свои решения. В «zero-shot» тестах они сознательно исключают из обучения некоторые знаменитые аллюзии и все связанные с ними стихи, а затем просят SCAD распознать их всё равно. Система по‑прежнему показывает сильные результаты, что говорит о том, что она усвоила общие закономерности того, как поэты намекают на истории, а не просто зазубрила фиксированный перечень. Чтобы заглянуть внутрь этих решений, команда применяет метод интерпретируемости LIME, который выделяет конкретные слова в стихе, наиболее влияющие на предсказание SCAD. Используя эти сигналы, они извлекают почти 10 000 «слов-аллюзий» и собирают их в граф знаний, связывающий стихи, вызывающие образы фразы и истории, которые они пробуждают — ресурс, который может питать поиск, учебные инструменты и интерактивные викторины.

Перенос древних намёков в цифровую эпоху

По сути, работа показывает, что при правильных сигналах обучения и архитектуре машины могут начинать улавливать литературные подмигивания и намёки, встроенные в классическую китайскую поэзию. SCAD не только обнаруживает, на какую историю тихо отсылает стих, но и может обобщать на новые аллюзии и помогать картографировать сложную сеть ссылок, связывающую стихи между собой и с более широкой культурной традицией. Для читателей, студентов и исследователей системы, построенные на этом подходе, могут стать проводниками, освещающими скрытые слои смысла в одной из самых насыщенных аллюзиями литератур мира.

Цитирование: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z

Ключевые слова: классическая китайская поэзия, литературные аллюзии, контрастное обучение, цифровые гуманитарные науки, обработка естественного языка