Clear Sky Science · es

Prism-OBI: un nuevo marco para el reconocimiento de inscripciones en huesos oraculares mediante percepción visual y desacoplo de características

2026-04-07 · Volver al índice

Pistas antiguas en huesos agrietados

Hace más de tres mil años, la gente de la antigua China grabó preguntas a los dioses en huesos de animales y caparazones de tortuga, creando la escritura china más antigua conocida. Hoy, estas inscripciones en huesos oraculares son pistas valiosas para la historia temprana, pero la mayoría sobreviven solo como fragmentos gastados y agrietados que son extremadamente difíciles de leer, incluso para expertos. Este trabajo presenta Prism-OBI, un nuevo sistema de inteligencia artificial diseñado para ver más allá del daño, separar los trazos significativos del ruido geológico y ayudar a los investigadores a desbloquear estos frágiles registros a escala.

Por qué los huesos antiguos son difíciles de leer

Los huesos oraculares han soportado milenios bajo tierra, comprimidos por el suelo, empapados y secados por cambios climáticos y fracturados durante la excavación. La escritura suele estar tenue, rota o ausente, y las superficies óseas están llenas de grietas y manchas que se parecen engañosamente a los trazos tallados. Los enfoques tradicionales se basaban en que los expertos compararan pacientemente cada signo a simple vista o en software estándar de reconocimiento de caracteres diseñado para texto impreso moderno y limpio. Ambos enfoques tienen dificultades cuando un solo carácter puede estar partido por una grieta, parcialmente erosionado o dibujado en formas ligeramente distintas por diferentes escribas y en distintas épocas. Como resultado, gran parte de este material permanece infrautilizado, bloqueado por la dificultad de identificar simplemente qué carácter es cuál.

Enseñar a las máquinas a ver más allá del daño

Prism-OBI aborda este problema dividiendo el reconocimiento en dos etapas cuidadosamente coordinadas en lugar de usar un único modelo monolítico de extremo a extremo. En la primera etapa, el sistema se centra solo en dónde están los caracteres en una frottage (frotado) de un hueso, no en su significado. Antes de que cualquier IA procese la imagen, un proceso de limpieza en dos pasos aumenta el contraste y filtra el ruido salpicado del escáner, haciendo que los trazos destaquen con mayor claridad. El frottage limpiado pasa luego a un detector personalizado, basado en una red de detección de objetos rápida, que ha sido reingenierizada para ser “consciente de la degradación”. Separa formas amplias de detalles finos, resalta patrones de trazos probables, atenúa las grietas aleatorias y combina información a varias escalas para que tanto caracteres diminutos como grandes puedan detectarse con fiabilidad. La salida de esta etapa es un conjunto de recuadros ajustados alrededor de cada parche sospechoso de contener un carácter.

De signos recortados a caracteres reconocidos

En la segunda etapa, cada parche recortado de carácter se redimensiona a un cuadrado estándar y se alimenta a un clasificador profundo adaptado a partir de un modelo de visión ampliamente usado. Este clasificador se especializa en distinguir centenas de signos sutilmente diferentes en el conjunto de datos OBC306, que contiene más de 300.000 caracteres de huesos oraculares repartidos en 306 categorías, cada una vinculada a un equivalente chino moderno. Dado que el detector ya ha hecho el trabajo duro de limpiar y aislar los caracteres, el clasificador puede concentrarse en distinciones finas en la forma y disposición de los trazos —como ganchos pequeños, rupturas o intersecciones— en lugar de combatir el ruido de fondo del frottage original. Las pruebas muestran que esta combinación de un detector enfocado con un clasificador potente ofrece una mayor precisión de reconocimiento que sistemas más simples de una sola etapa, al tiempo que sigue siendo lo suficientemente rápida para un uso casi en tiempo real.

Un vistazo al interior del nuevo detector

Tras bambalinas, el detector de Prism-OBI emplea varias técnicas a medida para lidiar con artefactos muy degradados. Un módulo divide la señal visual en componentes de baja frecuencia (contornos generales) y de alta frecuencia (bordes nítidos) para que el modelo pueda tratar de forma distinta las formas amplias y las puntas delicadas de los trazos, y luego aplica mecanismos de atención para enfatizar patrones de trazos consistentes sobre las fisuras aleatorias. Otro módulo construye una pirámide de vistas a diferentes escalas y aprende cuánto confiar en cada una, lo que mejora la detección tanto de caracteres diminutos como de los más grandes sin verse desbordado por el ruido. Un tercer módulo aprende a ponderar características de diferentes capas de la red en lugar de simplemente apilarlas, ayudando a preservar señales informativas mientras se atenúan las poco fiables. Finalmente, la cabeza de detección codifica explícitamente la posición horizontal y vertical, lo cual es vital en disposiciones densas donde los caracteres vecinos de otro modo se difuminan entre sí.

Qué significan los resultados para el patrimonio cultural

En un conjunto de datos estándar de detección de huesos oraculares, el detector mejorado mejora de forma significativa la precisión, la exhaustividad (recall) y la calidad global de las cajas delimitadoras en comparación con el modelo base, reduciendo tanto los caracteres no detectados como las falsas alarmas provocadas por grietas. Combinado con el clasificador, el marco completo Prism-OBI logra un sólido rendimiento de reconocimiento de caracteres mientras procesa aproximadamente 32 imágenes por segundo en una GPU de portátil. Pruebas cualitativas preliminares incluso muestran que el mismo detector, sin reentrenamiento, puede localizar de forma significativa caracteres en otras escrituras antiguas como inscripciones en bronce y escritura de sello, aunque aún se requiere ajuste fino para obtener los mejores resultados. Para los no especialistas, la conclusión clave es que Prism-OBI ofrece una vía práctica y extensible para leer automáticamente escrituras antiguas fuertemente dañadas. Al separar con claridad “¿dónde está la escritura?” de “¿qué dice?”, el sistema convierte superficies óseas desordenadas y fracturadas en texto estructurado y buscable, ayudando a historiadores y arqueólogos a explorar los registros escritos más antiguos de la humanidad más rápida y exhaustivamente que nunca.

Cita: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

Palabras clave: inscripciones en huesos oraculares, reconocimiento de escrituras antiguas, aprendizaje profundo, digitalización del patrimonio cultural, visión por computador