Clear Sky Science · de

Ein Benchmark-Datensatz für die Textzeilensegmentierung in Palmblatthandschriften

2026-02-11 · Zurück zur Übersicht

Erzählungen bewahren, die auf Blättern geschrieben sind

Palmblattmanuskripte zählen zu den ältesten noch erhaltenen Aufzeichnungen über Leben, Wissenschaft, Religion und Kunst in Süd- und Südostasien. Viele dieser brüchigen Blätter verblassen, reißen oder werden im Laufe der Zeit zerstört, wodurch Jahrhunderte an Wissen bedroht sind. Diese Arbeit stellt LeafOCR-Line vor, einen sorgfältig erstellten digitalen Datensatz, der Computern hilft, Zeilen auf beschädigten Palmblättern genauer zu erkennen und damit die Anstrengungen zur Bewahrung und Weitergabe dieses fragilen Erbes zu beschleunigen.

Warum alte Blätter schwer zu lesen sind

Ein Palmblattmanuskript zu lesen ist nicht so einfach wie eine moderne gedruckte Seite zu scannen. Die Schrift ist oft schräg, gedrängt in engen Bereichen oder durch Bindungslöcher unterbrochen, die traditionell zum Zusammenbinden der Blätter verwendet wurden. Alter verursacht zusätzlich Flecken, Schimmelstellen, Risse und verblasste Tinte. Einige dieser Zeichen sehen Buchstaben täuschend ähnlich, während Teile echter Zeichen fehlen oder kaum sichtbar sind. In Sprachen wie Malayalam, die in vielen dieser Texte verwendet werden, sind die Zeichen voller Schleifen und gestapelter Markierungen, die sich von einer Zeile zur nächsten überlappen können. Für ein Computer-Vision-System, das versucht, jede Textzeile zu lokalisieren, ist dieses unordentliche, überlappende Layout besonders herausfordernd.

Von physischen Blättern zu einem digitalen Benchmark

Die Autorinnen und Autoren setzten sich zum Ziel, einen großen, realistischen Benchmark-Datensatz zu erstellen, der einen entscheidenden Schritt der Digitalisierungskette fokussiert: die Trennung jeder Textzeile vom Hintergrund und von benachbarten Zeilen. Sie sammelten 20 Bündel von Malayalam-Palmblattmanuskripten aus einer öffentlichen Online-Sammlung, mit Werken, die grob zwischen den Jahren 1000 und 1800 entstanden sind. Nach der Extraktion von fast 3.000 Seitenbildern und dem automatischen Abschneiden der dunklen Hintergründe arbeiteten sie nur mit den Blattbereichen. Jedes zugeschnittene Blatt variiert stark in der Größe, enthält drei bis zwölf Zeilen Text und kann ein oder zwei Bindungslöcher, unregelmäßige Abstände sowie unterschiedliche Handschriftenstile aufweisen, die verschiedene Autorinnen, Autoren und Epochen widerspiegeln.

Schadenskategorien und das Nachzeichnen jeder Zeile

Da unterschiedliche Schädigungsgrade unterschiedliche Verarbeitungsstrategien erfordern, wurde jedes Bild einer von drei Qualitätsstufen zugewiesen: weniger stark beschädigt, mäßig beschädigt oder stark beschädigt. Diese Einstufung stützte sich auf eine zuvor entwickelte, objektive Bewertungsmethode, die visuelle Klarheit, Kontrast und den physischen Zustand analysiert. Die Hauptinnovation von LeafOCR-Line liegt in der Art, wie die Textzeilen markiert sind. Anstatt einfache Rechtecke zu zeichnen, die häufig durch Zeichen schneiden, die über oder unter eine Zeile hinausragen, verwendete das Team flexible Polygonumrisse, die der tatsächlichen geschwungenen Form jeder Zeile eng folgen.

Studierende zeichneten diese Formen manuell mit einem Annotationswerkzeug, das von einer KI-Hilfe unterstützt wurde, und verfeinerten sie dann Punkt für Punkt, sodass Schleifen, Kurven, Überlappungen und verblasste Striche sorgfältig behandelt wurden. Experten mit Malayalam-Kenntnissen überprüften die Ergebnisse; fehlerhafte oder ungenaue Masken wurden zur Korrektur zurückgeschickt.

Woraus der Datensatz besteht

Insgesamt bietet LeafOCR-Line 1.710 Palmblattbilder, jeweils gepaart mit einem passenden Maskenbild, das die Textzeilen hervorhebt. Die Sammlung ist in Trainings-, Validierungs- und Testmengen aufgeteilt, mit ähnlichen Anteilen der drei Qualitätsstufen: etwa die Hälfte der Bilder ist mäßig beschädigt, während der Rest ungefähr gleichmäßig zwischen besserem und schlechterem Zustand aufgeteilt ist. Aus diesen 1.710 Blättern können Forschende mehr als 10.000 einzelne Zeilenbilder extrahieren. Zusätzliche Dateien fassen für jedes Bild dessen Schadensgrad und das Quellmanuskript zusammen, einschließlich Links zurück zum ursprünglichen Online-Repository. Diese Struktur erleichtert faire Vergleiche von Methoden und das Entwerfen von Systemen, die sich an unterschiedliche Schadensgrade anpassen.

Wie gut heutige Algorithmen damit zurechtkommen

Um zu zeigen, dass der Datensatz sowohl herausfordernd als auch nützlich ist, trainierten und testeten die Autorinnen und Autoren eine breite Palette moderner Bildsegmentierungsmodelle, von klassischen Encoder–Decoder-Netzen bis zu neueren, auf Transformern basierenden Entwürfen. Sie maßen, wie gut die von den Modellen vorhergesagten Zeilenregionen mit den menschlich erzeugten Masken übereinstimmen. Alle Modelle konnten Zeilen einigermaßen gut segmentieren, doch ein Ansatz namens DeepLabV3 stach hervor. Er erwies sich als besonders effektiv beim Erfassen dünner, geschwungener Linien und beim Erhalt der Kontinuität auch bei stark beschädigten Blättern, obwohl kleine Fehler dort blieben, wo Zeilen sehr eng beieinander lagen. Andere verbreitete Modelle wie U-Net und LinkNet zeigten ebenfalls starke Leistungen, waren in den schlechtesten Fällen aber etwas weniger konsistent, während einige transformerbasierte und pyramidenartige Netze mit feinen Details Schwierigkeiten hatten.

Von einer Schrift zu vielen — und warum das wichtig ist

Obwohl LeafOCR-Line nur die Malayalam-Schrift enthält, ähneln die Formen und das Layout ihrer Zeichen denen benachbarter Schriften wie Tamil, Tigalari und Grantha. Die Autorinnen und Autoren zeigten, dass ein auf ihrem Datensatz trainiertes Modell auch Zeilen aus diesen verwandten Schriften segmentieren kann, was darauf hindeutet, dass dieselben Daten breitere Digitalisierungsbemühungen über mehrere Sprachen hinweg unterstützen können. Für Nichtfachleute ist die Hauptbotschaft klar: LeafOCR-Line bietet eine robuste, öffentliche Grundlage, um Algorithmen zu entwickeln und zu testen, die Textzeilen auf beschädigten Palmblättern „sehen“ können. Das hilft Archivaren, Bibliothekarinnen und Bibliothekaren sowie Gemeinschaften dabei, fragile, verblassende Pflanzenstreifen in durchsuchbare, teilbare digitale Archive zu verwandeln und das kulturelle Gedächtnis für künftige Generationen zu bewahren.

Zitation: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Schlüsselwörter: Palmblattmanuskripte, Textzeilensegmentierung, Dokumentendigitalisierung, Malayalam-Schrift, Erhalt des Kulturerbes