Clear Sky Science · ru

Тестовый набор данных для сегментации строк текста в документах на пальмовых листьях

· Назад к списку

Сохранение рассказов, записанных на листьях

Рукописи на пальмовых листьях — одни из самых давних сохранившихся свидетельств жизни, науки, религии и искусства в Южной и Юго-Восточной Азии. Многие из этих хрупких листов сейчас выцветают, трескаются и разрушаются под воздействием времени, что ставит под угрозу утрату столетий знаний. В статье представлен LeafOCR-Line — тщательно собранный цифровой набор данных, который помогает компьютерам точнее распознавать строки текста на повреждённых пальмовых листьях, ускоряя усилия по сохранению и распространению этого хрупкого наследия.

Figure 1
Figure 1.

Почему древние листья трудно читать

Чтение рукописи на пальмовом листе не так просто, как сканирование современной печатной страницы. Надписи часто наклонены, сжаты в тесные интервалы или прерываются отверстиями, традиционно делавшимися для сшивания листов. Возраст добавляет пятна, грибковые поражения, порезы и выцветшую краску. Некоторые из этих меток поразительно похожи на буквы, тогда как части настоящих букв могут отсутствовать или едва видны. В таких языках, как малаялам, которыми записаны многие из этих текстов, буквы полны петель и составных знаков, которые могут перекрываться между соседними строками. Для системы компьютерного зрения, пытающейся определить каждую строку, такой беспорядочный, перекрывающийся макет представляет особенно серьёзную сложность.

От физических листов к цифровому эталону

Авторы поставили цель создать большой, реалистичный эталонный набор данных, сосредоточенный на одном ключевом шаге процесса оцифровки: отделении каждой строки текста от фона и соседних строк. Они собрали 20 связок рукописей на малаялам с пальмовых листьев из публичного онлайн-архива, охватывающих произведения, написанные примерно в период с 1000 по 1800 годы. После извлечения почти 3000 изображений страниц и автоматического обрезания тёмных фонов они работали только с областями листа. Каждый обрезанный лист сильно различается по размеру, содержит от трёх до двенадцати строк текста и может включать одно или два отверстия для сшивания, нерегулярные интервалы и разнообразные почерки, отражающие разных авторов и эпохи.

Классификация повреждений и обводка каждой строки

Поскольку различные уровни повреждений требуют разных стратегий обработки, каждая картинка была отнесена к одному из трёх уровней качества: менее повреждённая, умеренно повреждённая или сильно повреждённая. Эта оценка опиралась на ранее предложенный объективный метод, анализирующий визуальную чёткость, контраст и физическое состояние. Главная инновация LeafOCR-Line заключается в том, как размечены строки текста. Вместо простых прямоугольников, которые часто разрезают части букв, выступающие выше или ниже строки, команда использовала гибкие полигоны, точно повторяющие фактическую изогнутую форму каждой строки.

Figure 2
Figure 2.
Аспиранты вручную трассировали эти формы с помощью инструмента аннотаций, поддерживаемого AI-помощником, а затем дообрабатывали точки по одной, чтобы аккуратно учесть петли, кривые, перекрытия и выцветшие штрихи. Эксперты, владеющие малаяламом, проверяли результаты; любые неверно выровненные или неточные маски возвращались на доработку.

Содержимое набора данных

В целом LeafOCR-Line содержит 1710 изображений пальмовых листов, каждое в паре с соответствующей маской, выделяющей его строки текста. Коллекция разделена на обучающую, валидационную и тестовую подвыборки с похожим распределением трёх уровней качества: примерно половина изображений — умеренно повреждённые, а оставшаяся часть почти поровну разделена между лучшим и худшим состоянием. Из этих 1710 листов исследователи могут извлечь более 10 000 отдельных изображений строк. Дополнительные файлы суммируют для каждого изображения уровень повреждения и источник рукописи, включая ссылки назад на исходный онлайн-репозиторий. Такая структура облегчает честное сравнение методов и разработку систем, адаптирующихся к различной степени повреждений.

Как справляются современные алгоритмы

Чтобы показать, что набор данных одновременно сложен и полезен, авторы обучили и протестировали широкий набор современных моделей сегментации изображений — от классических энкодер–декодер сетей до новых архитектур на базе трансформеров. Они измеряли, насколько предсказанные моделью области строк совпадают с вручную созданными масками. Все модели могли достаточно хорошо сегментировать строки, но одна из подходов, названная DeepLabV3, выделялась. Она была особенно эффективна в захвате тонких изогнутых линий и поддержании их непрерывности даже на сильно повреждённых листах, хотя оставались мелкие ошибки там, где строки лежали очень близко друг к другу. Другие популярные модели, такие как U-Net и LinkNet, также показали высокую производительность, но несколько менее устойчиво в самых тяжёлых случаях, в то время как некоторые трансформерные и пирамидальные сети испытывали трудности с мелкими деталями.

От одной письменности к многим и почему это важно

Хотя LeafOCR-Line содержит только письменноть малаялам, формы и расположение его букв напоминают соседние письменности, такие как тамильская, тигалари и грантха. Авторы продемонстрировали, что модель, обученная на их наборе данных, способна сегментировать строки и в этих родственных системах письма, что указывает на то, что те же данные могут поддержать более широкие усилия по оцифровке нескольких языков. Для неспециалистов главный вывод прост: LeafOCR-Line предлагает надёжную, публичную основу для построения и тестирования алгоритмов, которые «видят» строки текста на повреждённых пальмовых листьях. Это, в свою очередь, помогает архивистам, библиотекарям и сообществам превращать хрупкие, выцветающие полоски растительного материала в поисковые, доступные цифровые архивы, сохраняющие культурную память для будущих поколений.

Цитирование: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Ключевые слова: рукописи на пальмовых листьях, сегментация строк текста, оцифровка документов, письменность малаялам, сохранение наследия