Clear Sky Science · es

Aprendizaje de representaciones finas para la detección del silabario Yi en recursos escasos y la construcción de un conjunto de datos

2026-03-26 · Volver al índice

Salvando un frágil patrimonio escrito

El pueblo Yi del suroeste de China ha conservado durante siglos una rica tradición escrita, registrando medicina, astronomía, religión y la vida cotidiana en su propio sistema de escritura. Sin embargo, muchos de estos manuscritos se están desvaneciendo, manchando o dañando de otras formas, y la propia grafía es visualmente compleja. Transcribir manualmente cientos de miles de caracteres es lento y costoso. Este artículo presenta un nuevo sistema de visión por computador diseñado específicamente para localizar y aislar caracteres Yi en imágenes digitales de documentos antiguos, sentando las bases para la digitalización a gran escala y la preservación de este patrimonio escrito en peligro.

Por qué este sistema de escritura es tan difícil para los ordenadores

A diferencia del más familiar alfabeto latino o incluso del chino impreso moderno, los caracteres Yi se construyen a partir de trazos densos y curvos que a menudo se entrelazan. Muchos caracteres diferentes se parecen muchísimo, y el mismo carácter puede aparecer con formas ligeramente distintas a lo largo del tiempo y entre manuscritos. Las páginas históricas frecuentemente emplean disposiciones en varias columnas muy compactas, con huecos irregulares y trazos solapados. Además, la tinta puede estar desvaída, las páginas deformadas y los fondos manchados. Los métodos de detección más antiguos, que dependen de reglas fijas sobre espaciado o de modelos genéricos de detección de texto, suelen fusionar caracteres vecinos, pasar por alto trazos tenues o confundir ruido de fondo con escritura. Los autores sostienen que los manuscritos Yi representan una especie de «peor caso» para la detección de texto, y que resolver este problema podría beneficiar a muchos otros sistemas de escritura con pocos recursos.

Una nueva forma de ver los detalles finos

Para abordar estos desafíos, los investigadores diseñan una red neuronal especializada llamada FGRL-YiNet (Fine-Grained Representation Learning Network para Yi). En su núcleo introduce una variación sobre las capas convolucionales estándar, la herramienta básica del reconocimiento de imágenes moderno. En lugar de usar un único patrón de filtro fijo en todas partes, FGRL-YiNet emplea convolución dinámica: varios filtros candidatos funcionan en paralelo y un pequeño módulo de compuerta decide, para cada región de la imagen, cuánto confiar en cada uno. Esto permite al sistema ajustar sutilmente su «campo receptivo» a los patrones locales de trazos, capturando mejor las curvas delicadas y las uniones sin verse desconcertado por fondos con suciedad o páginas dañadas. Construido sobre una columna vertebral ResNet-18 compacta, el modelo se mantiene deliberadamente moderado en tamaño para poder aprender eficazmente a partir de la cantidad relativamente pequeña de datos anotados en Yi.

Combinando escalas y limpiando la página

Detectar caracteres en una página completa de manuscrito también requiere comprender patrones a múltiples tamaños a la vez —desde pequeños ondulaciones en un solo trazo hasta la disposición de una columna entera. FGRL-YiNet introduce un módulo de Fusión Adaptativa Multiescala (AMSF) para resolver esto. La red primero extrae características a varias resoluciones y luego utiliza un mecanismo de atención conjunto para decidir qué escala y qué canales importan más en cada ubicación. Una parte de esta atención se enfoca en el «dónde» de la imagen en que los detalles finos son importantes, mientras que otra se centra en el «qué» tipo de característica es útil —por ejemplo, un ancho de trazo particular o un pequeño lazo dentro de un carácter. En paralelo, una cabeza de binarización diferenciable aprende a separar la tinta del fondo prediciendo tanto un mapa de probabilidades como un umbral que varía localmente. Dado que este paso está integrado en la red y se entrena de extremo a extremo, puede preservar trazos tenues que una conversión tradicional a blanco y negro eliminaría, a la vez que suprime motas y manchas.

Construyendo un punto de referencia para un silabario raro

Un obstáculo importante para cualquier sistema especializado es el dato: hay pocos manuscritos Yi digitalizados de alta calidad, y aún menos con etiquetas precisas para cada carácter. El equipo afronta esto construyendo el conjunto de datos YiPrint-694 a partir de clásicos Yi de Liangshan, resultando en casi 347.000 caracteres etiquetados en 694 imágenes de página y 1.165 categorías de carácter. Combinan un preprocesado cuidadoso —reducción de ruido, realce de bordes y binarización— con una canalización de segmentación semi-automática y una laboriosa verificación manual por expertos en la lengua Yi. Para imitar el aspecto de páginas antiguas y decoloradas, crean imágenes adicionales con fondos amarillentos y amarronados. Esta colección curada se convierte tanto en el terreno de entrenamiento para FGRL-YiNet como en un punto de referencia público para futuras investigaciones sobre Yi y escrituras relacionadas.

Qué tan bien funciona el sistema

Al compararlo con un conjunto amplio de detectores de texto de última generación, incluidos modelos muy usados como Faster R-CNN, DBNet++ y PSENet, FGRL-YiNet alcanza las mejores puntuaciones generales en YiPrint-694. Detecta caracteres con una alta puntuación f de 94,7 %, impulsada por una precisión muy alta (98,4 %) y una buena exhaustividad (recall) (91,3 %), lo que significa que rara vez confunde el fondo con texto y aun así encuentra la mayoría de los caracteres en la página. Experimentos de ablación, en los que se eliminan componentes individuales, muestran que cada innovación —convolución dinámica, fusión adaptativa multiescala y binarización diferenciable— aporta ganancias medibles y que funcionan mejor en conjunto. El modelo también se traslada bien al mayor conjunto MTHv2 de textos budistas chinos históricos, donde compite con detectores de propósito general líderes, subrayando su potencial más amplio.

Qué significa esto para la preservación cultural

Para los no especialistas, el mensaje central es que un diseño cuidadoso y dirigido puede ayudar a los ordenadores a leer algunos de los sistemas de escritura más desafiantes del mundo, incluso cuando sólo existe un conjunto de datos de entrenamiento limitado. Al combinar filtros adaptativos, fusión multiescala inteligente y limpieza integrada de páginas degradadas, FGRL-YiNet puede localizar de forma fiable caracteres Yi individuales en manuscritos abarrotados y dañados. Esto facilita en gran medida la creación de archivos digitales buscables, el apoyo a la investigación lingüística e histórica y la salvaguardia del registro escrito del pueblo Yi. Los autores ven su arquitectura y su conjunto de datos como un modelo para abordar otras escrituras desatendidas en el mundo, demostrando que los avances en inteligencia artificial pueden desempeñar un papel directo en la preservación de frágiles patrimonios culturales para las generaciones futuras.

Cita: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

Palabras clave: escritura Yi, manuscritos históricos, detección de texto, patrimonio digital, aprendizaje profundo