Clear Sky Science · es

Un conjunto de referencia para la segmentación de líneas de texto en documentos sobre hojas de palma

2026-02-11 · Volver al índice

Salvar historias escritas en hojas

Los manuscritos sobre hojas de palma se cuentan entre los registros más antiguos que han llegado hasta nosotros sobre la vida, la ciencia, la religión y el arte en el sur y sudeste de Asia. Muchas de estas hojas frágiles están ahora desvaneciéndose, agrietándose y siendo devoradas por el tiempo, lo que pone en riesgo la pérdida de siglos de conocimiento. Este artículo presenta LeafOCR-Line, un conjunto de datos digitales cuidadosamente construido que ayuda a que los ordenadores lean las líneas de escritura en hojas de palma dañadas con mayor precisión, acelerando los esfuerzos para preservar y compartir este patrimonio frágil con el mundo.

Por qué las hojas antiguas son difíciles de leer

Leer un manuscrito sobre hoja de palma no es tan simple como escanear una página impresa moderna. La escritura suele estar inclinada, comprimida en espacios estrechos o interrumpida por orificios perforados usados tradicionalmente para encuadernar las hojas. La edad añade manchas, puntos de hongos, rasgaduras y tinta desvanecida. Algunas de estas marcas se parecen confusamente a letras, mientras que partes de letras reales pueden faltar o ser apenas visibles. En lenguas como el malayalam, empleadas en muchos de estos textos, las letras están llenas de lazos y signos apilados que pueden solaparse de una línea a otra. Para un sistema de visión por computador que intenta localizar cada línea de escritura, este diseño desordenado y sobrepuesto resulta especialmente desafiante.

De las hojas físicas a un banco de pruebas digital

Los autores se propusieron crear un gran conjunto de referencia realista centrado en un paso crucial de la cadena de digitalización: separar cada línea de texto del fondo y de las líneas vecinas. Reunieron 20 fardos de manuscritos sobre hojas de palma en malayalam de una colección pública en línea, que abarcan obras escritas aproximadamente entre los años 1000 y 1800. Tras extraer casi 3.000 imágenes de páginas y recortar automáticamente los fondos oscuros, trabajaron solo con las regiones de las hojas. Cada hoja recortada varía ampliamente en tamaño, contiene de tres a doce líneas de texto y puede incluir uno o dos orificios de perforación, espaciados irregulares y diversos estilos de caligrafía que reflejan distintos autores y periodos.

Clasificar el daño y trazar cada línea

Dado que distintos niveles de deterioro requieren diferentes estrategias de procesamiento, a cada imagen se le asignó uno de tres niveles de calidad: menos deteriorada, moderadamente deteriorada o muy deteriorada. Esta clasificación se basó en un método de evaluación objetivo previo que analiza la claridad visual, el contraste y la condición física. La principal innovación de LeafOCR-Line reside en cómo se marcan las líneas de escritura. En lugar de dibujar simples rectángulos, que a menudo cortan letras que se extienden por encima o por debajo de una línea, el equipo utilizó contornos poligonales flexibles que siguen de cerca la forma curva real de cada línea.

Estudiantes de posgrado trazaron manualmente estas formas usando una herramienta de anotación asistida por un ayudante basado en IA y luego las refinaron punto por punto para manejar cuidadosamente lazos, curvas, solapamientos y trazos desvanecidos. Expertos con dominio del malayalam revisaron los resultados; cualquier máscara desalineada o inexacta se devolvía para su corrección.

Qué contiene el conjunto de datos

En total, LeafOCR-Line ofrece 1.710 imágenes de hojas de palma, cada una emparejada con una imagen de máscara correspondiente que resalta sus líneas de texto. La colección se divide en subconjuntos de entrenamiento, validación y prueba con proporciones similares de los tres niveles de calidad: aproximadamente la mitad de las imágenes son moderadamente deterioradas, mientras que el resto se reparte a partes similares entre mejor y peor estado. A partir de estas 1.710 hojas, los investigadores pueden extraer más de 10.000 imágenes de líneas individuales. Archivos adicionales resumen, para cada imagen, su nivel de daño y el manuscrito de origen, incluyendo enlaces de vuelta al repositorio original en línea. Esta estructura facilita comparar métodos de manera justa y diseñar sistemas que se adapten a distintos grados de deterioro.

Cómo se comportan los algoritmos actuales

Para demostrar que el conjunto de datos es a la vez desafiante y útil, los autores entrenaron y evaluaron una amplia gama de modelos modernos de segmentación de imágenes, desde redes clásicas codificador-decodificador hasta diseños más recientes basados en transformadores. Midieron qué tan estrechamente las regiones de línea predichas por cada modelo coincidían con las máscaras hechas por humanos. Todos los modelos pudieron segmentar líneas razonablemente bien, pero un enfoque llamado DeepLabV3 destacó. Fue especialmente eficaz capturando líneas finas y curvas y manteniendo la continuidad incluso en hojas muy dañadas, aunque persistieron pequeños errores cuando las líneas estaban muy próximas entre sí. Otros modelos populares como U-Net y LinkNet también funcionaron con solidez pero de forma algo menos consistente en los peores casos, mientras que algunas redes basadas en transformadores y de estilo piramidal tuvieron dificultades con los detalles finos.

De un alfabeto a muchos, y por qué importa

Aunque LeafOCR-Line contiene únicamente escritura en malayalam, las formas y la disposición de sus letras se asemejan a las de alfabetos vecinos como el tamil, el tigalari y el grantha. Los autores demostraron que un modelo entrenado en su conjunto de datos puede segmentar líneas de estos alfabetos relacionados también, lo que sugiere que los mismos datos pueden respaldar esfuerzos de digitalización más amplios en varias lenguas. Para los no especialistas, el mensaje principal es claro: LeafOCR-Line ofrece una base pública y robusta para construir y probar algoritmos que puedan “ver” las líneas de texto en hojas de palma dañadas. Esto, a su vez, ayuda a archiveros, bibliotecarios y comunidades a convertir tiras frágiles y desvanecidas de material vegetal en archivos digitales buscables y compartibles que mantienen viva la memoria cultural para las generaciones futuras.

Cita: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

Palabras clave: manuscritos sobre hojas de palma, segmentación de líneas de texto, digitalización de documentos, escritura malayalam, preservación del patrimonio