Clear Sky Science · ru

Обучение представлений с тонкой детализацией для обнаружения письма и создания наборов данных для малоизвестного письма ижий

· Назад к списку

Сохранение хрупкого письменного наследия

Народ йи с юго-запада Китая на протяжении веков сохранял богатую письменную традицию, фиксируя знания по медицине, астрономии, религии и повседневной жизни на собственном письме. Однако многие из этих рукописей выцветают, запачканы или повреждены, а сами знаки визуально сложны. Ручная расшифровка сотен тысяч символов медленна и дорога. В этой работе предложена новая система компьютерного зрения, специально разработанная для поиска и изоляции символов йи на цифровых изображениях старых документов, что закладывает основу для масштабной оцифровки и сохранения этого находящегося под угрозой письменного наследия.

Figure 1
Figure 1.

Почему это письмо так трудно для компьютеров

В отличие от более знакомого латинского алфавита или даже современного печатного китайского, символы йи состоят из плотных, изогнутых штрихов, которые часто переплетаются. Многие разные знаки выглядят чрезвычайно похоже, а один и тот же знак может слегка меняться по форме в разных эпохах и рукописях. Исторические страницы часто имеют плотную верстку в несколько колонок, с нерегулярными промежутками и пересекающимися штрихами. К тому же чернила могут выцветать, страницы деформироваться, а фон становиться пятнистым. Старые методы обнаружения, опирающиеся на фиксированные правила о расстояниях или на общие модели распознавания текста, склонны сливать соседние символы, пропускать слабые штрихи или принимать шум фона за письмо. Авторы утверждают, что рукописи йи представляют собой своего рода «худший случай» для задач обнаружения текста, и что решение этой проблемы может помочь для многих других малоизученных письменностей.

Новый подход к выявлению тонких деталей

Чтобы справиться с этими трудностями, исследователи разработали специализированную нейросеть FGRL-YiNet (Fine-Grained Representation Learning Network for Yi). В её основе — модификация стандартных сверточных слоёв, являющихся рабочей лошадкой современного распознавания изображений. Вместо одного фиксированного шаблона фильтра везде FGRL-YiNet использует динамическую свёртку: несколько кандидатов-фильтров работают параллельно, а небольшой модуль управления для каждого региона изображения решает, в какой степени опираться на каждый из них. Это позволяет системе тонко подстраивать «рецептивное поле» под локальные шаблоны штрихов, лучше улавливая тонкие изгибы и соединения, не сбиваясь на фоне помех или повреждений страниц. Построенная на компактном бэконбоне ResNet-18, модель сознательно сохраняется умеренной по размеру, чтобы эффективно обучаться на относительно небольшом объёме аннотированных данных йи.

Figure 2
Figure 2.

Комбинирование масштабов и очистка страницы

Обнаружение символов на полной странице рукописи также требует понимания паттернов на нескольких масштабах одновременно — от крошечных извивов одного штриха до верстки целой колонки. FGRL-YiNet вводит модуль адаптивного мульти-масштабного слияния (Adaptive Multi-Scale Fusion, AMSF) для решения этой задачи. Сеть сначала извлекает признаки на нескольких разрешениях, затем использует совместный механизм внимания, чтобы решить, какой масштаб и какие каналы важны в каждой точке. Одна часть внимания фокусируется на том, «где» на изображении важны тонкие детали, а другая — на том, «какой» тип признака полезен — например, определённая ширина штриха или маленькая петля внутри знака. Параллельно дифференцируемая голова бинаризации учится отделять чернила от фона, предсказывая как карту вероятностей, так и локально изменяющийся порог. Поскольку этот шаг встроен в сеть и обучается сквозным образом, он может сохранять слабые штрихи, которые традиционное чёрно‑белое преобразование бы «съело», одновременно подавляя пятна и шумы.

Создание эталона для редкого письма

Главным препятствием для любой специализированной письменности являются данные: качественно оцифрованных рукописей йи немного, и ещё меньше экземпляров с точной разметкой каждого символа. Команда решила эту проблему, создав набор данных YiPrint-694 из классических текстов йи из Ляншань, в результате получив почти 347 000 промаркированных символов на 694 изображениях страниц и 1 165 категорий символов. Они совместили тщательную предобработку — подавление шума, усиление краёв и бинаризацию — с полуавтоматическим пайплайном сегментации и кропотливой ручной проверкой экспертами по языку йи. Чтобы имитировать вид старых, потемневших страниц, были созданы дополнительные изображения с желтоватыми и коричневыми фонами. Эта курированная коллекция стала как тренировочной базой для FGRL-YiNet, так и публичным эталоном для будущих исследований по письму йи и родственным системам письма.

Насколько хорошо работает система

При испытании на широком наборе современных детекторов текста, включая широко используемые модели, такие как Faster R-CNN, DBNet++ и PSENet, FGRL-YiNet показывает лучшие общие результаты на YiPrint-694. Она обнаруживает символы с высоким f‑мерой 94.7%, что обеспечивается очень высокой точностью (98.4%) и сильной полнотой (91.3%), то есть модель редко принимает фон за текст и одновременно находит большинство символов на странице. Аблационные эксперименты, в которых поочерёдно убирали отдельные компоненты, показывают, что каждое новшество — динамическая свёртка, адаптивное мульти‑масштабное слияние и дифференцируемая бинаризация — даёт измеримый вклад, и что они работают лучше всего в сочетании. Модель также хорошо переносится на более крупный набор MTHv2 исторических китайских буддийских текстов, где она выступает конкурентоспособно по сравнению с ведущими универсальными детекторами, что подчёркивает её более широкие возможности.

Что это означает для сохранения культуры

Для неспециалистов главный вывод таков: тщательный целенаправленный дизайн может помочь компьютерам «прочитать» одни из самых трудных в мире систем письма, даже когда доступно лишь ограниченное количество обучающих данных. Сочетая адаптивные фильтры, интеллектуальное мульти‑масштабное слияние и встроенную очистку повреждённых страниц, FGRL-YiNet может надёжно локализовать отдельные символы йи в плотных, повреждённых рукописях. Это значительно упрощает создание поисковых цифровых архивов, поддержку лингвистических и исторических исследований и сохранение письменного наследия народа йи. Авторы рассматривают свою архитектуру и набор данных как шаблон для работы с другими малообслуживаемыми письменностями по всему миру, демонстрируя, что достижения в области искусственного интеллекта могут напрямую способствовать сохранению хрупкого культурного наследия для будущих поколений.

Цитирование: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

Ключевые слова: письмо йи, исторические рукописи, обнаружение текста, цифровое наследие, глубокое обучение