Clear Sky Science · fr

Un jeu de données de référence pour la segmentation de lignes de texte dans des manuscrits sur feuilles de palmier

2026-02-11 · Retour à l’index

Sauvegarder des récits écrits sur des feuilles

Les manuscrits sur feuilles de palmier comptent parmi les plus anciennes traces écrites de la vie, des sciences, de la religion et des arts en Asie du Sud et du Sud-Est. Beaucoup de ces feuilles fragiles pâlissent, se fissurent et se dégradent avec le temps, mettant en danger des siècles de savoir. Cet article présente LeafOCR-Line, un jeu de données numérique soigneusement construit qui aide les ordinateurs à lire plus précisément les lignes d’écriture sur des feuilles de palmier abîmées, accélérant ainsi les efforts pour préserver et partager ce patrimoine fragile avec le monde.

Pourquoi les anciennes feuilles sont difficiles à lire

Lire un manuscrit sur feuille de palmier n’est pas aussi simple que numériser une page imprimée moderne. L’écriture est souvent penchée, compressée dans des espaces étroits, ou interrompue par des trous de perçage traditionnellement utilisés pour relier les feuilles. L’âge ajoute des taches, des points de moisissure, des déchirures et une encre estompée. Certaines de ces marques ressemblent étrangement à des lettres, tandis que des portions de lettres réelles peuvent manquer ou être à peine visibles. Dans des langues comme le malayalam, employée pour nombre de ces textes, les lettres comportent des boucles et des signes empilés qui peuvent se chevaucher d’une ligne à la suivante. Pour un système de vision par ordinateur qui tente de localiser chaque ligne d’écriture, cette disposition désordonnée et chevauchée est particulièrement difficile.

Des feuilles physiques à un banc d’essai numérique

Les auteurs se sont donné pour objectif de créer un grand jeu de données réaliste centré sur une étape cruciale de la chaîne de numérisation : séparer chaque ligne de texte du fond et des lignes voisines. Ils ont rassemblé 20 lots de manuscrits en malayalam sur feuilles de palmier provenant d’une collection publique en ligne, couvrant des œuvres écrites entre environ 1000 et 1800. Après avoir extrait près de 3 000 images de pages et recadré automatiquement les fonds sombres, ils ont travaillé uniquement sur les régions de feuilles. Chaque feuille recadrée varie largement en taille, contient trois à douze lignes de texte et peut inclure un ou deux trous de perçage, un espacement irrégulier et des styles d’écriture divers reflétant différents auteurs et périodes.

Classer les détériorations et tracer chaque ligne

Parce que différents niveaux de dégradation nécessitent des stratégies de traitement différentes, chaque image a été affectée à l’un des trois niveaux de qualité : peu détériorée, modérément détériorée ou fortement détériorée. Cette notation s’appuie sur une méthode d’évaluation objective antérieure qui analyse la clarté visuelle, le contraste et l’état physique. L’innovation principale de LeafOCR-Line porte sur la manière dont les lignes d’écriture sont marquées. Plutôt que de tracer de simples rectangles, qui tronquent souvent des lettres s’étendant au‑dessus ou au‑dessous d’une ligne, l’équipe a utilisé des contours polygonaux flexibles qui suivent de près la forme courbe réelle de chaque ligne.

Des étudiants diplômés ont tracé manuellement ces formes à l’aide d’un outil d’annotation assisté par une aide basée sur l’IA, puis les ont affinées point par point afin de gérer soigneusement boucles, courbes, chevauchements et traits estompés. Des experts maîtrisant le malayalam ont vérifié les résultats ; tout masque mal aligné ou inexact a été renvoyé pour correction.

Ce que contient le jeu de données

Au total, LeafOCR-Line fournit 1 710 images de feuilles de palmier, chacune associée à une image de masque correspondante mettant en évidence ses lignes de texte. La collection est répartie en sous‑ensembles d’entraînement, de validation et de test avec des proportions similaires des trois niveaux de qualité : environ la moitié des images sont modérément détériorées, tandis que le reste est à peu près également divisé entre meilleurs et pires états. À partir de ces 1 710 feuilles, les chercheurs peuvent extraire plus de 10 000 images de lignes individuelles. Des fichiers supplémentaires récapitulent, pour chaque image, son niveau de détérioration et le manuscrit source, y compris des liens renvoyant au dépôt en ligne original. Cette structure facilite la comparaison équitable des méthodes et la conception de systèmes qui s’adaptent à des degrés de dégradation variables.

Comment les algorithmes actuels s’en sortent

Pour montrer que le jeu de données est à la fois difficile et utile, les auteurs ont entraîné et testé un large éventail de modèles modernes de segmentation d’images, allant des réseaux encodeur–décodeur classiques aux architectures récentes basées sur des transformeurs. Ils ont mesuré dans quelle mesure les régions de lignes prédites par chaque modèle correspondaient aux masques réalisés par des humains. Tous les modèles pouvaient segmenter les lignes de façon raisonnable, mais une approche, appelée DeepLabV3, s’est distinguée. Elle s’est révélée particulièrement efficace pour capturer des lignes fines et courbes et pour maintenir la continuité même sur des feuilles fortement endommagées, bien que de petites erreurs subsistent lorsque les lignes sont très proches les unes des autres. D’autres modèles populaires tels que U‑Net et LinkNet ont également obtenu de bonnes performances, mais de façon légèrement moins consistante sur les cas les plus sévères, tandis que certains réseaux de type transformeur ou pyramidaux ont peiné sur les détails fins.

D’un seul écriture à plusieurs, et pourquoi cela compte

Bien que LeafOCR-Line contienne uniquement l’écriture malayalam, la forme et la disposition de ses lettres ressemblent à celles d’écritures voisines comme le tamoul, le tigalari et le grantha. Les auteurs ont démontré qu’un modèle entraîné sur leur jeu de données peut aussi segmenter des lignes dans ces scripts apparentés, ce qui suggère que les mêmes données peuvent soutenir des efforts de numérisation plus larges à travers plusieurs langues. Pour les non‑spécialistes, le message principal est simple : LeafOCR-Line offre une base publique solide pour construire et tester des algorithmes capables de « voir » les lignes de texte sur des feuilles de palmier abîmées. Cela aide archivistes, bibliothécaires et communautés à transformer des bandes de matière végétale fragiles et qui s’estompent en archives numériques consultables et partageables, préservant ainsi la mémoire culturelle pour les générations futures.

Citation: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Mots-clés: manuscrits sur feuilles de palmier, segmentation de lignes de texte, numérisation de documents, écriture malayalam, préservation du patrimoine