Clear Sky Science · ru

Проверка авторства на бамбуковых дощечках Цинхуа с помощью сиамских сетей

2026-03-11 · Назад к списку

Древние книги встречают современный код

Задолго до бумаги и экранов китайские мыслители писали на тонких полосках бамбука. Сегодня эти хрупкие манускрипты — кладезь сведений для историков, но один базовый вопрос оказывается удивительно трудным: какие дощечки написаны одной и той же рукой? В этом исследовании археология сочетается с искусственным интеллектом, чтобы создать цифрового ассистента, помогающего учёным выяснить, кто и что написал на тысячах 2300-летних бамбуковых дощечек из знаменитой коллекции Цинхуа.

Почему почерк важен

Бамбуковые дощечки Цинхуа относятся к периоду Чжаньгуо (Сражающиеся царства), незадолго до образования первой китайской империи. Они сохраняют ранние версии текстов по политике, истории и философии, которые либо сформировали, либо утрачены в более поздней традиции. Чтобы по-настоящему понять эти тексты, исследователям важно знать, как были сгруппированы дощечки, какие части принадлежат одному манускрипту и сколько писцов над ними работало. Традиционно такие вопросы решаются визуально: эксперты оценивают плавность штрихов, давление и компоновку. Эта работа медленная, субъективная и плохо масштабируется с появлением новых находок.

Преобразование штрихов в данные

Авторы поставили задачу научить компьютер сравнивать отдельные рукописные знаки, вырезанные из фотоснимков высокого разрешения дощечек. Сначала они собрали большую коллекцию изображений: 15 745 отдельных знаков от 11 ранее идентифицированных писцов, основанную на консенсусных палеографических исследованиях. С помощью профессионального программного обеспечения для обработки изображений они устранили фоновые помехи, изолировали каждый знак в прямоугольнике и отфильтровали повреждённые или перекрывающиеся символы. Затем они расширили малые классы — писцов, у которых сохранилось мало знаков — простыми приёмами: зеркальным отражением, поворотом, обрезкой и добавлением шума, чтобы алгоритм не был смещён в пользу более распространённых стилей.

Сдвоенная сеть, ищущая сходство

Вместо того чтобы просить компьютер назвать автора каждого знака, команда выбрала более простую и гибкую задачу: принадлежат ли эти два изображения одной и той же руке? Для этого они использовали «сиамскую» нейронную сеть — пару одинаковых ветвей обработки изображений с общими параметрами. Каждая ветвь превращает изображение знака в компактный числовой отпечаток. Система измеряет расстояние между двумя отпечатками: небольшое расстояние указывает на одного писца, большее — на разных. В основе каждой ветви лежит улучшенная лёгкая модель MobileNet_V3+, дополненная механизмом внимания, который учится выделять наиболее информативные визуальные признаки — тонкие изгибы, толщину штриха или характерные способы построения частей знака — и при этом ослаблять менее полезные детали.

Насколько хорошо работает система

На наборе данных Цинхуа лучшая версия модели в целом правильно определяла, принадлежат ли пары знаков одному писцу, примерно в 90% случаев, показывая очень высокий результат по стандартному тесту на дискриминацию двух категорий. Она превосходила несколько более тяжёлых систем распознавания изображений, таких как ResNet, VGG и Vision Transformers, которые либо переобучались на ограниченных данных, либо упускали тонкие стилистические сигналы, важные для этой задачи. Визуальный анализ «карт внимания» сети показал, что по мере обучения модель переставала смотреть на общие силуэты и вместо этого фокусировалась на ключевых сегментах штрихов — подобно человеческому эксперту.

Помощь в реальных научных диспутах

Чтобы проверить полезность инструмента за пределами лаборатории, авторы применили его к нескольким бамбуковым манускриптам, авторство которых годами обсуждалось. Для трёх текстов («Цзи Гун», «Хоу Фу» и «Шэ Мин») ранние исследователи постепенно пришли к выводу, что они написаны одним и тем же писцом в широкой группе «Ин Чжи». Модель сильно поддержала эту гипотезу, обнаружив очень высокое сходство во всех парах. В другом случае — пара манускриптов «Чжи Чжэн» и «Чжи Банг» — учёные спорили, писал ли один человек или несколько. Сравнения сети показали, что страницы 1–42 «Чжи Чжэн» формируют один отличительный почерк, тогда как страница 43 «Чжи Чжэн» сильно соответствовала «Чжи Банг», но не ранним страницам — свидетельство участия двух разных писцов, не вписывающихся в ранее определённые категории.

Что это значит для прошлого и будущего

Проще говоря, работа демонстрирует, что компактная система ИИ может надёжно сказать, вероятно ли два крошечных фрагмента древнего почерка принадлежат одному человеку, даже видя только отдельные знаки. Она не заменит экспертную оценку, но сможет быстро просканировать большие коллекции, отметить вероятные совпадения и предоставить количественную поддержку за или против конкретных группировок дощечек. Помимо запасника Цинхуа, тот же подход можно адаптировать к другим хрупким записям — от гадальных костей до свитков Шёлкового пути — помогая историкам и лингвистам воссоздавать пути распространения идей во времени и пространстве.

Цитирование: Wang, H., Li, M., Liu, B. et al. Tsinghua bamboo slip scribe verification using Siamese networks. npj Herit. Sci. 14, 147 (2026). https://doi.org/10.1038/s40494-026-02416-8

Ключевые слова: бамбуковые дощечки, анализ почерка, глубокое обучение, культурное наследие, сиамская сеть