Clear Sky Science · fr
Un jeu de données de référence pour la segmentation de lignes de texte dans des manuscrits sur feuilles de palmier
Sauvegarder des récits écrits sur des feuilles
Les manuscrits sur feuilles de palmier comptent parmi les plus anciennes traces écrites de la vie, des sciences, de la religion et des arts en Asie du Sud et du Sud-Est. Beaucoup de ces feuilles fragiles pâlissent, se fissurent et se dégradent avec le temps, mettant en danger des siècles de savoir. Cet article présente LeafOCR-Line, un jeu de données numérique soigneusement construit qui aide les ordinateurs à lire plus précisément les lignes d’écriture sur des feuilles de palmier abîmées, accélérant ainsi les efforts pour préserver et partager ce patrimoine fragile avec le monde. 
Pourquoi les anciennes feuilles sont difficiles à lire
Lire un manuscrit sur feuille de palmier n’est pas aussi simple que numériser une page imprimée moderne. L’écriture est souvent penchée, compressée dans des espaces étroits, ou interrompue par des trous de perçage traditionnellement utilisés pour relier les feuilles. L’âge ajoute des taches, des points de moisissure, des déchirures et une encre estompée. Certaines de ces marques ressemblent étrangement à des lettres, tandis que des portions de lettres réelles peuvent manquer ou être à peine visibles. Dans des langues comme le malayalam, employée pour nombre de ces textes, les lettres comportent des boucles et des signes empilés qui peuvent se chevaucher d’une ligne à la suivante. Pour un système de vision par ordinateur qui tente de localiser chaque ligne d’écriture, cette disposition désordonnée et chevauchée est particulièrement difficile.
Des feuilles physiques à un banc d’essai numérique
Les auteurs se sont donné pour objectif de créer un grand jeu de données réaliste centré sur une étape cruciale de la chaîne de numérisation : séparer chaque ligne de texte du fond et des lignes voisines. Ils ont rassemblé 20 lots de manuscrits en malayalam sur feuilles de palmier provenant d’une collection publique en ligne, couvrant des œuvres écrites entre environ 1000 et 1800. Après avoir extrait près de 3 000 images de pages et recadré automatiquement les fonds sombres, ils ont travaillé uniquement sur les régions de feuilles. Chaque feuille recadrée varie largement en taille, contient trois à douze lignes de texte et peut inclure un ou deux trous de perçage, un espacement irrégulier et des styles d’écriture divers reflétant différents auteurs et périodes.
Classer les détériorations et tracer chaque ligne
Parce que différents niveaux de dégradation nécessitent des stratégies de traitement différentes, chaque image a été affectée à l’un des trois niveaux de qualité : peu détériorée, modérément détériorée ou fortement détériorée. Cette notation s’appuie sur une méthode d’évaluation objective antérieure qui analyse la clarté visuelle, le contraste et l’état physique. L’innovation principale de LeafOCR-Line porte sur la manière dont les lignes d’écriture sont marquées. Plutôt que de tracer de simples rectangles, qui tronquent souvent des lettres s’étendant au‑dessus ou au‑dessous d’une ligne, l’équipe a utilisé des contours polygonaux flexibles qui suivent de près la forme courbe réelle de chaque ligne. 
Ce que contient le jeu de données
Au total, LeafOCR-Line fournit 1 710 images de feuilles de palmier, chacune associée à une image de masque correspondante mettant en évidence ses lignes de texte. La collection est répartie en sous‑ensembles d’entraînement, de validation et de test avec des proportions similaires des trois niveaux de qualité : environ la moitié des images sont modérément détériorées, tandis que le reste est à peu près également divisé entre meilleurs et pires états. À partir de ces 1 710 feuilles, les chercheurs peuvent extraire plus de 10 000 images de lignes individuelles. Des fichiers supplémentaires récapitulent, pour chaque image, son niveau de détérioration et le manuscrit source, y compris des liens renvoyant au dépôt en ligne original. Cette structure facilite la comparaison équitable des méthodes et la conception de systèmes qui s’adaptent à des degrés de dégradation variables.
Comment les algorithmes actuels s’en sortent
Pour montrer que le jeu de données est à la fois difficile et utile, les auteurs ont entraîné et testé un large éventail de modèles modernes de segmentation d’images, allant des réseaux encodeur–décodeur classiques aux architectures récentes basées sur des transformeurs. Ils ont mesuré dans quelle mesure les régions de lignes prédites par chaque modèle correspondaient aux masques réalisés par des humains. Tous les modèles pouvaient segmenter les lignes de façon raisonnable, mais une approche, appelée DeepLabV3, s’est distinguée. Elle s’est révélée particulièrement efficace pour capturer des lignes fines et courbes et pour maintenir la continuité même sur des feuilles fortement endommagées, bien que de petites erreurs subsistent lorsque les lignes sont très proches les unes des autres. D’autres modèles populaires tels que U‑Net et LinkNet ont également obtenu de bonnes performances, mais de façon légèrement moins consistante sur les cas les plus sévères, tandis que certains réseaux de type transformeur ou pyramidaux ont peiné sur les détails fins.
D’un seul écriture à plusieurs, et pourquoi cela compte
Bien que LeafOCR-Line contienne uniquement l’écriture malayalam, la forme et la disposition de ses lettres ressemblent à celles d’écritures voisines comme le tamoul, le tigalari et le grantha. Les auteurs ont démontré qu’un modèle entraîné sur leur jeu de données peut aussi segmenter des lignes dans ces scripts apparentés, ce qui suggère que les mêmes données peuvent soutenir des efforts de numérisation plus larges à travers plusieurs langues. Pour les non‑spécialistes, le message principal est simple : LeafOCR-Line offre une base publique solide pour construire et tester des algorithmes capables de « voir » les lignes de texte sur des feuilles de palmier abîmées. Cela aide archivistes, bibliothécaires et communautés à transformer des bandes de matière végétale fragiles et qui s’estompent en archives numériques consultables et partageables, préservant ainsi la mémoire culturelle pour les générations futures.
Citation: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1
Mots-clés: manuscrits sur feuilles de palmier, segmentation de lignes de texte, numérisation de documents, écriture malayalam, préservation du patrimoine