Clear Sky Science · ru
Тестовый набор данных для сегментации строк текста в документах на пальмовых листьях
Сохранение рассказов, записанных на листьях
Рукописи на пальмовых листьях — одни из самых давних сохранившихся свидетельств жизни, науки, религии и искусства в Южной и Юго-Восточной Азии. Многие из этих хрупких листов сейчас выцветают, трескаются и разрушаются под воздействием времени, что ставит под угрозу утрату столетий знаний. В статье представлен LeafOCR-Line — тщательно собранный цифровой набор данных, который помогает компьютерам точнее распознавать строки текста на повреждённых пальмовых листьях, ускоряя усилия по сохранению и распространению этого хрупкого наследия. 
Почему древние листья трудно читать
Чтение рукописи на пальмовом листе не так просто, как сканирование современной печатной страницы. Надписи часто наклонены, сжаты в тесные интервалы или прерываются отверстиями, традиционно делавшимися для сшивания листов. Возраст добавляет пятна, грибковые поражения, порезы и выцветшую краску. Некоторые из этих меток поразительно похожи на буквы, тогда как части настоящих букв могут отсутствовать или едва видны. В таких языках, как малаялам, которыми записаны многие из этих текстов, буквы полны петель и составных знаков, которые могут перекрываться между соседними строками. Для системы компьютерного зрения, пытающейся определить каждую строку, такой беспорядочный, перекрывающийся макет представляет особенно серьёзную сложность.
От физических листов к цифровому эталону
Авторы поставили цель создать большой, реалистичный эталонный набор данных, сосредоточенный на одном ключевом шаге процесса оцифровки: отделении каждой строки текста от фона и соседних строк. Они собрали 20 связок рукописей на малаялам с пальмовых листьев из публичного онлайн-архива, охватывающих произведения, написанные примерно в период с 1000 по 1800 годы. После извлечения почти 3000 изображений страниц и автоматического обрезания тёмных фонов они работали только с областями листа. Каждый обрезанный лист сильно различается по размеру, содержит от трёх до двенадцати строк текста и может включать одно или два отверстия для сшивания, нерегулярные интервалы и разнообразные почерки, отражающие разных авторов и эпохи.
Классификация повреждений и обводка каждой строки
Поскольку различные уровни повреждений требуют разных стратегий обработки, каждая картинка была отнесена к одному из трёх уровней качества: менее повреждённая, умеренно повреждённая или сильно повреждённая. Эта оценка опиралась на ранее предложенный объективный метод, анализирующий визуальную чёткость, контраст и физическое состояние. Главная инновация LeafOCR-Line заключается в том, как размечены строки текста. Вместо простых прямоугольников, которые часто разрезают части букв, выступающие выше или ниже строки, команда использовала гибкие полигоны, точно повторяющие фактическую изогнутую форму каждой строки. 
Содержимое набора данных
В целом LeafOCR-Line содержит 1710 изображений пальмовых листов, каждое в паре с соответствующей маской, выделяющей его строки текста. Коллекция разделена на обучающую, валидационную и тестовую подвыборки с похожим распределением трёх уровней качества: примерно половина изображений — умеренно повреждённые, а оставшаяся часть почти поровну разделена между лучшим и худшим состоянием. Из этих 1710 листов исследователи могут извлечь более 10 000 отдельных изображений строк. Дополнительные файлы суммируют для каждого изображения уровень повреждения и источник рукописи, включая ссылки назад на исходный онлайн-репозиторий. Такая структура облегчает честное сравнение методов и разработку систем, адаптирующихся к различной степени повреждений.
Как справляются современные алгоритмы
Чтобы показать, что набор данных одновременно сложен и полезен, авторы обучили и протестировали широкий набор современных моделей сегментации изображений — от классических энкодер–декодер сетей до новых архитектур на базе трансформеров. Они измеряли, насколько предсказанные моделью области строк совпадают с вручную созданными масками. Все модели могли достаточно хорошо сегментировать строки, но одна из подходов, названная DeepLabV3, выделялась. Она была особенно эффективна в захвате тонких изогнутых линий и поддержании их непрерывности даже на сильно повреждённых листах, хотя оставались мелкие ошибки там, где строки лежали очень близко друг к другу. Другие популярные модели, такие как U-Net и LinkNet, также показали высокую производительность, но несколько менее устойчиво в самых тяжёлых случаях, в то время как некоторые трансформерные и пирамидальные сети испытывали трудности с мелкими деталями.
От одной письменности к многим и почему это важно
Хотя LeafOCR-Line содержит только письменноть малаялам, формы и расположение его букв напоминают соседние письменности, такие как тамильская, тигалари и грантха. Авторы продемонстрировали, что модель, обученная на их наборе данных, способна сегментировать строки и в этих родственных системах письма, что указывает на то, что те же данные могут поддержать более широкие усилия по оцифровке нескольких языков. Для неспециалистов главный вывод прост: LeafOCR-Line предлагает надёжную, публичную основу для построения и тестирования алгоритмов, которые «видят» строки текста на повреждённых пальмовых листьях. Это, в свою очередь, помогает архивистам, библиотекарям и сообществам превращать хрупкие, выцветающие полоски растительного материала в поисковые, доступные цифровые архивы, сохраняющие культурную память для будущих поколений.
Цитирование: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1
Ключевые слова: рукописи на пальмовых листьях, сегментация строк текста, оцифровка документов, письменность малаялам, сохранение наследия