Clear Sky Science · it

Un dataset di riferimento per la segmentazione delle righe di testo in documenti su foglie di palma

· Torna all'indice

Salvare le storie scritte sulle foglie

I manoscritti su foglie di palma sono tra i più antichi documenti sopravvissuti della vita, della scienza, della religione e dell’arte nel Sud e Sudest asiatico. Molte di queste foglie fragili stanno ora sbiadendo, incrinando e disintegrandosi col tempo, mettendo a rischio secoli di conoscenza. Questo articolo presenta LeafOCR-Line, un dataset digitale costruito con cura che aiuta i computer a leggere le righe di testo su foglie danneggiate in modo più accurato, accelerando gli sforzi per preservare e condividere questo patrimonio fragile con il mondo.

Figure 1
Figure 1.

Perché le antiche foglie sono difficili da leggere

Leggere un manoscritto su foglia di palma non è semplice come scannerizzare una pagina stampata moderna. La scrittura è spesso inclinata, compressa in spazi ristretti o interrotta da fori praticati tradizionalmente per rilegare le foglie. L’invecchiamento aggiunge macchie, muffa, strappi e inchiostro sbiadito. Alcuni di questi segni possono somigliare confusamente a lettere, mentre parti di lettere vere possono mancare o essere appena visibili. In lingue come il Malayalam, usate in molti di questi testi, le lettere sono ricche di anse e segni sovrapposti che possono sovrapporsi tra una riga e l’altra. Per un sistema di visione artificiale che tenta di localizzare ogni riga di scrittura, questo layout disordinato e sovrapposto è particolarmente impegnativo.

Dalle foglie fisiche a un benchmark digitale

Gli autori si sono prefissati di creare un ampio dataset di riferimento realistico incentrato su un passaggio cruciale della catena di digitalizzazione: separare ciascuna riga di testo dallo sfondo e dalle righe vicine. Hanno raccolto 20 fascicoli di manoscritti su foglia di palma in Malayalam da una collezione pubblica online, coprendo opere scritte approssimativamente tra l’anno 1000 e il 1800. Dopo aver estratto quasi 3.000 immagini di pagine e aver ritagliato automaticamente gli sfondi scuri, hanno lavorato solo sulle regioni delle foglie. Ogni foglia ritagliata varia ampiamente in dimensione, contiene da tre a dodici righe di testo e può includere uno o due fori di rilegatura, spaziature irregolari e stili di scrittura diversi che riflettono autori e periodi differenti.

Classificare i danni e tracciare ogni riga

Poiché diversi livelli di deterioramento richiedono strategie di elaborazione diverse, ogni immagine è stata assegnata a uno dei tre livelli di qualità: meno deteriorata, moderatamente deteriorata o fortemente deteriorata. Questa valutazione si basa su un metodo di analisi oggettivo preesistente che considera chiarezza visiva, contrasto e condizione fisica. L’innovazione principale di LeafOCR-Line riguarda il modo in cui le righe di scrittura sono contrassegnate. Piuttosto che disegnare semplici rettangoli, che spesso tagliano lettere che si estendono sopra o sotto la riga, il team ha usato profili poligonali flessibili che seguono da vicino la forma curva reale di ciascuna riga.

Figure 2
Figure 2.
Studenti laureati hanno tracciato manualmente queste sagome usando uno strumento di annotazione assistito da un aiuto basato su IA e poi le hanno perfezionate punto per punto in modo da gestire con cura anse, curve, sovrapposizioni e tratti sbiaditi. Esperti fluenti in Malayalam hanno verificato i risultati; eventuali maschere disallineate o inaccurate sono state rimandate per la correzione.

Contenuto del dataset

In totale, LeafOCR-Line fornisce 1.710 immagini di foglie di palma, ciascuna abbinata a un’immagine maschera corrispondente che evidenzia le sue righe di testo. La collezione è suddivisa in sottoinsiemi di training, validation e test con proporzioni simili dei tre livelli di qualità: circa la metà delle immagini è moderatamente deteriorata, mentre il resto è approssimativamente diviso tra condizioni migliori e peggiori. Da queste 1.710 foglie, i ricercatori possono estrarre oltre 10.000 immagini di singole righe. File aggiuntivi riassumono, per ogni immagine, il livello di danno e il manoscritto di provenienza, inclusi link alla repository online originale. Questa struttura rende semplice confrontare i metodi in modo equo e progettare sistemi che si adattino a diversi gradi di deterioramento.

Come se la cavano gli algoritmi odierni

Per dimostrare che il dataset è sia impegnativo sia utile, gli autori hanno addestrato e testato un ampio insieme di modelli moderni di segmentazione delle immagini, che spaziano dalle classiche reti encoder–decoder ai più recenti design basati su transformer. Hanno misurato quanto le regioni di riga predette da ciascun modello corrispondessero alle maschere create dall’uomo. Tutti i modelli sono riusciti a segmentare le righe in modo ragionevole, ma un approccio chiamato DeepLabV3 è risultato particolarmente efficace. Si è dimostrato efficace nel cogliere righe sottili e curve e nel mantenere la continuità anche su foglie fortemente danneggiate, sebbene restassero piccoli errori dove le righe erano molto vicine tra loro. Altri modelli diffusi come U-Net e LinkNet hanno ottenuto buone prestazioni ma con una consistenza leggermente inferiore nei casi peggiori, mentre alcune reti basate su transformer e architetture a piramide hanno faticato sui dettagli fini.

Da una scrittura a molte e perché è importante

Sebbene LeafOCR-Line contenga solo la scrittura Malayalam, le forme e il layout delle sue lettere somigliano a quelli di scritture vicine come il Tamil, il Tigalari e il Grantha. Gli autori hanno dimostrato che un modello addestrato sul loro dataset può segmentare righe anche in queste scritture affini, suggerendo che gli stessi dati possono supportare ampi sforzi di digitalizzazione in più lingue. Per i non specialisti, il messaggio principale è semplice: LeafOCR-Line offre una base pubblica solida per costruire e testare algoritmi in grado di “vedere” le righe di testo su foglie di palma danneggiate. Ciò, a sua volta, aiuta archivisti, bibliotecari e comunità a trasformare fragili strisce di materiale vegetale in archivi digitali ricercabili e condivisibili che mantengono viva la memoria culturale per le generazioni future.

Citazione: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Parole chiave: manoscritti su foglie di palma, segmentazione delle righe di testo, digitalizzazione dei documenti, scrittura malayalam, conservazione del patrimonio