Clear Sky Science · sv

En benchmark-datamängd för textlinjeavgränsning i palmlövsdokument

· Tillbaka till index

Bevara berättelser skrivna på blad

Palmlövsmanuskript är bland de äldsta bevarade spåren av vardagsliv, vetenskap, religion och konst i Syd- och Sydostasien. Många av dessa sköra blad bleknar, spricker och löser upp sig med tiden, vilket riskerar att förlora århundraden av kunskap. Denna artikel presenterar LeafOCR-Line, en omsorgsfullt uppbyggd digital datamängd som hjälper datorer att läsa skrivna rader på skadade palmlöv mer exakt och därigenom påskynda arbetet med att bevara och dela detta ömtåliga arv med världen.

Figure 1
Figure 1.

Varför urgamla blad är svåra att läsa

Att läsa ett palmlövsmanuskript är inte lika enkelt som att skanna en modern tryckt sida. Skrivstilen lutar ofta, kläms in i trånga utrymmen eller bryts av hål som traditionellt använts för att binda bladen. Ålder ger fläckar, mögelprickar, revor och bleknat bläck. Vissa märken kan förväxlas med bokstäver, medan delar av verkliga tecken kan saknas eller vara knappt synliga. I språk som malayalam, som används i många av dessa texter, är bokstäverna fulla av slingor och staplade tecken som kan överlappa mellan rader. För ett datorseendesystem som försöker lokalisera varje textrad är denna röriga, överlappande layout särskilt utmanande.

Från fysiska blad till en digital benchmark

Författarna satte upp uppgiften att skapa en stor, realistisk benchmark-datamängd med fokus på ett avgörande steg i digitaliseringskedjan: att separera varje textrad från bakgrunden och från angränsande rader. De samlade 20 buntar med malayalam-palmlövsmanuskript från en offentlig online-samling, med verk skrivna någonstans mellan ungefär år 1000 och 1800. Efter att ha extraherat nästan 3 000 sidbilder och automatiskt beskuret bort de mörka bakgrunderna arbetade de enbart med själva lövområdena. Varje beskuret blad varierar kraftigt i storlek, innehåller tre till tolv rader text och kan ha ett eller två hål, oregelbunden radavstånd och skiftande handstilar som speglar olika författare och tidsperioder.

Sortera skador och spåra varje rad

Eftersom olika skadenivåer kräver olika bearbetningsstrategier tilldelades varje bild en av tre kvalitetsnivåer: mindre försämrad, måttligt försämrad eller kraftigt försämrad. Denna bedömning byggde på en tidigare, objektiv metod som analyserar visuell klarhet, kontrast och fysisk kondition. Huvudnyheten i LeafOCR-Line ligger i hur textraderna markerats. Istället för att rita enkla rektanglar, som ofta skär igenom tecken som sträcker sig ovanför eller under en rad, använde teamet flexibla polygonkonturer som noggrant följer den faktiska böjda formen hos varje rad.

Figure 2
Figure 2.
Graduate-studenter spårade manuellt dessa former med ett annoteringsverktyg som stöddes av en AI-baserad assistent och förfinade dem sedan punkt för punkt så att slingor, kurvor, överlappningar och blekta streck hanterades omsorgsfullt. Experter som behärskar malayalam kontrollerade resultaten; eventuella felaktigt anpassade eller inexakta masker skickades tillbaka för korrigering.

Vad datamängden innehåller

Totalt tillhandahåller LeafOCR-Line 1 710 palmlövsbilder, var och en ihopparad med en matchande maskbild som framhäver dess textrader. Samlingen är uppdelad i tränings-, validerings- och testdelar med liknande fördelning av de tre kvalitetsnivåerna: ungefär hälften av bilderna är måttligt försämrade, medan resten är ungefär jämnt fördelade mellan bättre och sämre skick. Från dessa 1 710 blad kan forskare extrahera mer än 10 000 individuella radbilder. Ytterligare filer sammanfattar för varje bild dess skadenivå och källmanuskript, inklusive länkar tillbaka till den ursprungliga onlinearkivet. Denna struktur gör det enkelt att jämföra metoder rättvist och att konstruera system som anpassar sig till varierande grader av skada.

Hur bra dagens algoritmer hanterar det

För att visa att datamängden både är utmanande och användbar tränade och testade författarna en bred uppsättning moderna bildsegmenteringsmodeller, från klassiska encoder–decoder-nätverk till nyare transformerbaserade konstruktioner. De mätte hur nära varje modells förutsagda radregioner matchade de mänskligt gjorda maskerna. Alla modeller kunde segmentera rader någorlunda väl, men en metod, kallad DeepLabV3, utmärkte sig. Den var särskilt effektiv på att fånga tunna, böjda rader och att bevara kontinuitet även i kraftigt skadade blad, även om små fel återstod där rader låg mycket nära varandra. Andra populära modeller som U-Net och LinkNet presterade också starkt men något mindre konsekvent i de värsta fallen, medan vissa transformerbaserade och pyramidliknande nätverk hade svårt med fina detaljer.

Från ett skriftsystem till flera, och varför det spelar roll

Även om LeafOCR-Line endast innehåller malayalamskrift liknar form och layout hos dess bokstäver de i närliggande skriftsystem som tamil, tigalari och grantha. Författarna visade att en modell tränad på deras datamängd också kan segmentera rader från dessa närbesläktade skriftsystem, vilket antyder att samma data kan stödja bredare digitaliseringsinsatser över flera språk. För icke-specialister är huvudbudskapet enkelt: LeafOCR-Line erbjuder en robust, offentlig grund för att bygga och testa algoritmer som kan ”se” textrader på skadade palmlöv. Detta hjälper i sin tur arkivarier, bibliotekarier och samhällen att förvandla sköra, bleknande remsor av växtmaterial till sökbara, delbara digitala arkiv som håller kulturminnet levande för kommande generationer.

Citering: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Nyckelord: palmlövsmanuskript, textlinjeavgränsning, dokumentdigitalisering, malayalamskrift, kulturarvsskydd