Clear Sky Science · pt

Um conjunto de dados de referência para segmentação de linhas de texto em documentos de folhas de palmeira

· Voltar ao índice

Salvando Histórias Escritas em Folhas

Manuscritos em folhas de palmeira estão entre os registros mais antigos preservados sobre vida, ciência, religião e arte no Sul e Sudeste da Ásia. Muitas dessas folhas frágeis agora estão desbotando, rachando e sendo consumidas pelo tempo, o que coloca em risco séculos de conhecimento. Este artigo apresenta o LeafOCR-Line, um conjunto de dados digital cuidadosamente construído que ajuda computadores a ler linhas de escrita em folhas de palmeira danificadas com mais precisão, acelerando os esforços para preservar e compartilhar esse patrimônio frágil com o mundo.

Figure 1
Figure 1.

Por Que Folhas Antigas São Difíceis de Ler

Ler um manuscrito em folha de palmeira não é tão simples quanto escanear uma página impressa moderna. A escrita frequentemente aparece inclinada, comprimida em espaços estreitos ou interrompida por furos usados tradicionalmente para encadernar as folhas. A idade acrescenta manchas, pontos de fungo, rasgos e tinta desbotada. Alguns desses sinais se assemelham confusamente a letras, enquanto partes de letras reais podem estar faltando ou ser quase invisíveis. Em línguas como o malaiala, usadas em muitos desses textos, as letras têm numerosas alças e marcas empilhadas que podem sobrepor-se de uma linha para outra. Para um sistema de visão computacional que tenta localizar cada linha de escrita, esse arranjo confuso e sobreposto é especialmente desafiador.

Das Folhas Físicas a um Referencial Digital

Os autores propuseram criar um grande conjunto de dados de referência realista focado em uma etapa crucial da cadeia de digitalização: separar cada linha de texto do fundo e das linhas vizinhas. Eles reuniram 20 fechos de manuscritos malaialas em folhas de palmeira de uma coleção pública online, cobrindo obras escritas aproximadamente entre os anos 1000 e 1800. Depois de extrair quase 3.000 imagens de páginas e recortar automaticamente os fundos escuros, trabalharam apenas com as regiões das folhas. Cada folha recortada varia amplamente em tamanho, contém de três a doze linhas de texto e pode incluir um ou dois furos, espaçamentos irregulares e estilos de escrita diversos que refletem diferentes autores e épocas.

Classificando Danos e Traçando Cada Linha

Como diferentes níveis de dano exigem estratégias de processamento distintas, cada imagem foi atribuída a um de três níveis de qualidade: menos deteriorada, moderadamente deteriorada ou altamente deteriorada. Essa classificação baseou-se em um método de avaliação objetivo prévio que analisa clareza visual, contraste e condição física. A principal inovação do LeafOCR-Line reside em como as linhas de escrita são marcadas. Em vez de desenhar retângulos simples, que muitas vezes cortam letras que se estendem acima ou abaixo da linha, a equipe usou contornos poligonais flexíveis que seguem de perto a forma curva real de cada linha.

Figure 2
Figure 2.
Estudantes de pós-graduação traçaram manualmente essas formas usando uma ferramenta de anotação auxiliada por um assistente baseado em IA e depois as refinaram ponto a ponto, de modo que alças, curvas, sobreposições e traços desbotados fossem tratados com cuidado. Especialistas fluentes em malaiala verificaram os resultados; quaisquer máscaras desalinhadas ou imprecisas foram devolvidas para correção.

O Que o Conjunto de Dados Contém

No total, o LeafOCR-Line fornece 1.710 imagens de folhas de palmeira, cada uma emparelhada com uma imagem de máscara correspondente que destaca suas linhas de texto. A coleção é dividida em subconjuntos de treinamento, validação e teste com proporções semelhantes dos três níveis de qualidade: cerca de metade das imagens é moderadamente deteriorada, enquanto o restante está aproximadamente dividido entre condição melhor e pior. A partir dessas 1.710 folhas, pesquisadores podem extrair mais de 10.000 imagens de linhas individuais. Arquivos adicionais resumem, para cada imagem, seu nível de dano e o manuscrito de origem, incluindo links de volta ao repositório online original. Essa estrutura facilita comparar métodos de forma justa e projetar sistemas que se adaptem a graus variados de dano.

Como os Algoritmos Atuais Se Saem

Para demonstrar que o conjunto de dados é desafiador e útil, os autores treinaram e testaram um amplo conjunto de modelos modernos de segmentação de imagem, que vão desde redes clássicas codificador–decodificador até projetos mais novos baseados em transformers. Eles mediram o quão próximas as regiões de linha previstas por cada modelo estavam das máscaras feitas por humanos. Todos os modelos conseguiram segmentar linhas razoavelmente bem, mas uma abordagem, chamada DeepLabV3, destacou-se. Ela foi especialmente eficaz em capturar linhas finas e curvas e em manter a continuidade mesmo em folhas muito danificadas, embora erros pequenos permanecessem quando as linhas estavam muito próximas umas das outras. Outros modelos populares, como U-Net e LinkNet, também apresentaram bom desempenho, mas foram um pouco menos consistentes nos casos piores, enquanto algumas redes baseadas em transformers e estilos piramidais tiveram dificuldade com detalhes finos.

De um Escrita para Muitas, e Por Que Isso Importa

Embora o LeafOCR-Line contenha apenas a escrita malaiala, as formas e o layout de suas letras assemelham-se aos de escritas vizinhas, como tâmil, tigalari e grantha. Os autores demonstraram que um modelo treinado em seu conjunto de dados pode segmentar linhas dessas escritas relacionadas também, sugerindo que os mesmos dados podem apoiar esforços de digitalização mais amplos em várias línguas. Para não especialistas, a mensagem principal é direta: o LeafOCR-Line oferece uma base pública e robusta para construir e testar algoritmos que podem “ver” linhas de texto em folhas de palmeira danificadas. Isso, por sua vez, ajuda arquivistas, bibliotecários e comunidades a transformar tiras frágeis e desbotadas de material vegetal em arquivos digitais pesquisáveis e compartilháveis que mantêm a memória cultural viva para as gerações futuras.

Citação: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Palavras-chave: manuscritos em folhas de palmeira, segmentação de linhas de texto, digitalização de documentos, escrita malaiala, preservação do patrimônio