Clear Sky Science · pl

Zestaw danych referencyjnych do segmentacji linii tekstu w dokumentach na liściach palmowych

· Powrót do spisu

Ocalanie opowieści zapisanych na liściach

Manuskrypty na liściach palmowych należą do najstarszych zachowanych zapisów życia, nauki, religii i sztuki w Azji Południowej i Południowo-Wschodniej. Wiele z tych kruchych liści blaknie, pęka i ulega niszczeniu wskutek działania czasu, co grozi utratą wieków wiedzy. W artykule przedstawiono LeafOCR-Line, starannie zbudowany cyfrowy zestaw danych, który pomaga komputerom dokładniej odczytywać linie pisma na uszkodzonych liściach palmowych, przyspieszając wysiłki na rzecz zachowania i udostępniania tego kruchego dziedzictwa światu.

Figure 1
Figure 1.

Dlaczego starożytne liście trudno odczytać

Odczytywanie manuskryptu na liściu palmowym nie jest tak proste jak skanowanie współczesnej drukowanej strony. Pismo często jest pochylone, ściśnięte w wąskich przestrzeniach lub przerwane przez otwory nabijane tradycyjnie do łączenia liści. Wiek dodaje plamy, ogniska grzybowe, rozdarcia i wyblakły atrament. Niektóre z tych śladów myląco przypominają litery, podczas gdy części rzeczywistych znaków mogą być brakujące lub ledwo widoczne. W językach takich jak malajalamski, używanych w wielu z tych tekstów, litery pełne są pętli i nałożonych znaków, które mogą zachodzić na siebie pomiędzy liniami. Dla systemu widzenia komputerowego, który próbuje zlokalizować każdą linię pisma, ten chaotyczny, nakładający się układ jest szczególnie trudny.

Z liści fizycznych do cyfrowego punktu odniesienia

Autorzy postawili sobie za cel stworzenie dużego, realistycznego zestawu danych referencyjnych skoncentrowanego na jednym kluczowym etapie cyfryzacji: oddzieleniu każdej linii tekstu od tła i od sąsiednich linii. Zgromadzili 20 paków malajalamskich manuskryptów na liściach z publicznej kolekcji online, obejmujących prace napisane w przybliżeniu w latach 1000–1800. Po wyodrębnieniu prawie 3 000 obrazów stron i automatycznym wykadrowaniu ciemnych teł skupili się wyłącznie na obszarach liści. Każdy wykadrowany liść różni się znacznie rozmiarem, zawiera od trzech do dwunastu linii tekstu i może mieć jedno lub dwa otwory, nieregularne odstępy oraz zróżnicowane style pisma odzwierciedlające różnych autorów i okresy.

Klasyfikowanie uszkodzeń i trasowanie każdej linii

Ponieważ różne stopnie zniszczenia wymagają odmiennych strategii przetwarzania, każdy obraz został przypisany do jednego z trzech poziomów jakości: mniej zniszczony, umiarkowanie zniszczony lub silnie zniszczony. Ocena ta opierała się na wcześniejszej, obiektywnej metodzie analizującej czytelność wizualną, kontrast i stan fizyczny. Główną innowacją LeafOCR-Line jest sposób oznaczania linii pisma. Zamiast rysować proste prostokąty, które często przecinają znaki wykraczające ponad lub poniżej linii, zespół zastosował elastyczne kontury wielokątowe ściśle odwzorowujące rzeczywisty zakrzywiony kształt każdej linii.

Figure 2
Figure 2.
Studenci kierunkowi ręcznie odrysowywali te kształty przy użyciu narzędzia do adnotacji wspomaganego przez asystenta AI, a następnie dopracowywali je punkt po punkcie, tak aby pętle, krzywizny, nawarstwienia i wyblakłe kreski zostały starannie uwzględnione. Eksperci władający malajalamskim sprawdzali wyniki; wszystkie źle dopasowane lub niedokładne maski odsyłano do korekty.

Co zawiera zestaw danych

W sumie LeafOCR-Line dostarcza 1 710 obrazów liści palmowych, z których każdy sparowany jest z odpowiadającym obrazem maski uwypuklającym linie tekstu. Kolekcja jest podzielona na zbiory treningowy, walidacyjny i testowy z podobnym udziałem trzech poziomów jakości: około połowa obrazów jest umiarkowanie zniszczona, podczas gdy reszta jest mniej więcej równomiernie podzielona między lepszy i gorszy stan. Z tych 1 710 liści badacze mogą wyodrębnić ponad 10 000 pojedynczych obrazów linii. Dodatkowe pliki podsumowują dla każdego obrazu jego poziom uszkodzenia i źródłowy manuskrypt, w tym linki do oryginalnego repozytorium online. Taka struktura ułatwia sprawiedliwe porównywanie metod i projektowanie systemów dostosowujących się do różnych stopni zniszczenia.

Jak radzą sobie dzisiejsze algorytmy

Aby pokazać, że zestaw danych jest zarówno wymagający, jak i użyteczny, autorzy trenowali i testowali szeroki zestaw nowoczesnych modeli segmentacji obrazu, od klasycznych sieci enkoder–dekoder po nowsze konstrukcje oparte na transformatorach. Mierzyli, jak blisko przewidywane przez każdy model regiony linii odpowiadają maskom wykonanym ręcznie. Wszystkie modele potrafiły segmentować linie w stopniu zadowalającym, ale jedną z wyróżniających się metod był DeepLabV3. Był on szczególnie skuteczny w wychwytywaniu cienkich, zakrzywionych linii i zachowaniu ciągłości nawet na mocno uszkodzonych liściach, choć drobne błędy występowały tam, gdzie linie leżały bardzo blisko siebie. Inne popularne modele, takie jak U-Net i LinkNet, również osiągały dobre wyniki, lecz nieco mniej spójnie na najgorszych przypadkach, natomiast niektóre sieci oparte na transformatorach i architekturach piramidalnych miały trudności ze szczegółami.

Od jednego pisma do wielu i dlaczego to ma znaczenie

Choć LeafOCR-Line zawiera wyłącznie pismo malajalamskie, kształty i układ jego znaków przypominają sąsiednie pisma, takie jak tamilski, tigalari czy grantha. Autorzy wykazali, że model wytrenowany na ich zestawie danych może również segmentować linie w tych pokrewnych pismach, co sugeruje, że te same dane mogą wspierać szersze działania cyfryzacyjne w różnych językach. Dla osób spoza branży główne przesłanie jest proste: LeafOCR-Line oferuje solidną, publiczną podstawę do budowy i testowania algorytmów potrafiących „widzieć” linie tekstu na uszkodzonych liściach palmowych. To z kolei pomaga archiwistom, bibliotekarzom i społecznościom przekształcać kruche, blaknące paski materiału roślinnego w przeszukiwalne, udostępniane cyfrowe archiwa, które zachowują pamięć kulturową dla przyszłych pokoleń.

Cytowanie: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Słowa kluczowe: manuskrypty na liściach palmowych, segmentacja linii tekstu, cyfryzacja dokumentów, pismo malajalamskie, ochrona dziedzictwa