Clear Sky Science · fr

Prism-OBI : un nouveau cadre pour la reconnaissance des inscriptions sur os à oracle par perception visuelle et découplage des caractéristiques

· Retour à l’index

Indices anciens dans des os craquelés

Il y a plus de trois mille ans, des populations de la Chine ancienne gravaient des questions aux dieux sur des os de9 animaux et des carapaces de tortue, créant les plus anciennes formes connues de9criture chinoise. Aujourde2hui, ces inscriptions sur os à oracle sont des indices précieux pour le2histoire ancienne — mais la plupart ne subsistent que sous forme de fragments usés et fissurés, extrêmement difficiles à lire, même pour les spécialistes. Cet article présente Prism-OBI, un nouveau système de2intelligence artificielle conçu pour voir au-delà des dommages, séparer les traits significatifs du bruit ge9ologique et aider les chercheurs à déchiffrer ces documents fragiles et à grande échelle.

Pourquoi les vieux os sont difficiles à lire

Les os à oracle ont traversé des millénaires enfouis sous terre, comprimés par le sol, imbibés puis asséchés par les variations climatiques et fracturés lors des fouilles. Les traces de9criture sont souvent faibles, brisées ou manquantes, et les surfaces osseuses sont couvertes de fissures et de taches qui ressemblent trompeusement aux traits gravés. Les approches traditionnelles reposaient soit sur des spécialistes comparant laborieusement chaque signe à le2il nu, soit sur des logiciels de reconnaissance de caractères conçus pour du texte imprimé moderne et propre. Les deux méthodes peinent lorsque2un même caractère est scindé par une fissure, partiellement érodé ou dessiné en formes légèrement différentes par divers scribes et à différentes époques. En conséquence, une grande partie de ce corpus reste sous-exploitée, enfermée derrière la difficulté simple mais fondamentale de2identifier quel caractère est présent.

Apprendre aux ordinateurs à voir au-delà des dommages

Prism-OBI aborde ce problème en scindant la reconnaissance en deux étapes coordonnées plutôt que2en un unique modèle monolithique. Dans la première étape, le système se concentre uniquement sur se trouvent les caractères sur un frottis de2os, pas sur leur sens. Avant toute intervention de le2IA, un processus de nettoyage en deux temps augmente le contraste et filtre le bruit ponctuel du scanner, faisant ressortir les traits. Le frottis nettoyé est ensuite transmis à un détecteur personnalisé, basé sur un réseau rapide de détection de2objets, réingénieré pour être « conscient de la dégradation ». Il dissocie les formes générales des détails fins, met en évidence les motifs de traits probables, atténue les fissures aléatoires et combine le2information sur plusieurs échelles pour repérer de manière fiable les caractères tant minuscules que larges. Le résultat de cette étape est un ensemble de boîtes serrées autour de chaque patch de caractère suspecté.

Figure 1
Figure 1.

Des signes recadrés aux caractères reconnus

Dans la seconde étape, chaque patch de caractère recadré est redimensionné en une case carrée standard puis alimenté dans un classifieur profond adapté de2un modèle de vision largement utilisé. Ce classifieur est spécialisé pour distinguer des centaines de signes subtilement différents dans le jeu de données OBC306, qui contient plus de 300 000 caractères de2os à oracle répartis en 306 catégories, chacune rattachée à un équivalent chinois moderne. Parce que le détecteur a déjà effectué le travail difficile de nettoyage et de2isolation des caractères, le classifieur peut se concentrer sur les distinctions fines de forme et de2agencement des traits — comme de minuscules crochets, ruptures ou intersections — plutôt que de combattre le bruit de2arrière-plan du frottis original. Les tests montrent que le2association de2un détecteur ciblé et de2un classifieur puissant permet de2obtenir une précision de reconnaissance supérieure à celle des systèmes plus simples à étape unique, tout en restant suffisamment rapide pour un usage quasi temps réel.

Figure 2
Figure 2.

Ce que2il y a sous le capot du nouveau détecteur

En coulisses, le détecteur de Prism-OBI emploie plusieurs astuces sur mesure pour faire face à des artefacts fortement dégradés. Un module sépare le signal visuel en composantes basse fréquence (contours globaux) et haute fréquence (bords nets) afin que le modèle traite différemment les formes générales et les pointes délicates des traits, puis applique des mécanismes de2attention pour privilégier des motifs de traits cohérents sur les fissures aléatoires. Un autre module construit une pyramide de vues à différentes échelles et apprend à pondérer chacune de2elles, ce qui améliore la détection aussi bien des très petits caractères que des plus grands sans être submergé par le bruit. Un troisième module apprend à pondérer les caractéristiques issues de différentes couches du réseau au lieu de simplement les empiler, aidant à préserver les signaux informatifs tout en atténuant les signaux peu fiables. Enfin, la tête de détection encode explicitement la position horizontale et verticale, ce qui est crucial dans des mises en page denses où les caractères voisins se confondraient autrement.

Ce que les résultats signifient pour le patrimoine culturel

Sur un jeu de données standard de détection de2os à oracle, le détecteur amélioré améliore sensiblement la précision, le rappel et la qualité globale des boîtes englobantes par rapport au modèle de référence, réduisant à la fois les caractères manqués et les fausses alertes causées par des fissures. Combiné au classifieur, le cadre complet Prism-OBI atteint de solides performances de reconnaissance des caractères tout en traitant environ 32 images par seconde sur un GPU de portable. Des tests qualitatifs précoces montrent même que le même détecteur, sans nouvel entraînement, peut localiser de manière utile des caractères dans de2autres écritures anciennes telles que les inscriptions sur bronze et le2écriture sceau, bien que2un ajustement fin reste nécessaire pour obtenir les meilleurs résultats. Pour les non-spécialistes, le2essentiel est que Prism-OBI offre une voie pratique et extensible vers la lecture automatique de2écritures anciennes fortement endommagées. En séparant clairement « où est le2écriture ? » de « que dit-elle ? », le système transforme des surfaces osseuses désordonnées et fracturées en texte structuré et interrogeable, aidant historiens et archéologues à explorer les premiers documents écrits de le2humanité plus rapidement et plus complètement que jamais auparavant.

Citation: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

Mots-clés: inscriptions sur os à oracle, reconnaissance de9criture ancienne, apprentissage profond, digitalisation du patrimoine culturel, vision par ordinateur