Clear Sky Science · it

Prism-OBI: un nuovo framework per il riconoscimento delle iscrizioni su ossa oracolari tramite percezione visiva e decoupling delle caratteristiche

· Torna all'indice

Indizi antichi nelle ossa incrinate

Più di tremila anni fa, in Cina antica si incidevano domande agli dèi su ossa di animali e gusci di tartaruga, dando origine alla più antica scrittura cinese conosciuta. Oggi queste iscrizioni su ossa oracolari sono preziosi indizi sulla storia remota, ma la maggior parte sopravvive solo come frammenti consumati e incrinati, estremamente difficili da leggere anche per gli esperti. Questo articolo presenta Prism-OBI, un nuovo sistema di intelligenza artificiale pensato per vedere oltre il degrado, separare i tratti significativi dal rumore geologico e aiutare gli studiosi a decifrare su larga scala questi documenti fragili.

Perché le ossa antiche sono difficili da leggere

Le ossa oracolari hanno attraversato millenni sotto terra, schiacciate dal terreno, impregnate e poi asciugate dai cambiamenti climatici e fracture dallo scavo. La scrittura è spesso sbiadita, interrotta o mancante, e le superfici ossee sono piene di crepe e macchie che assomigliano ingannevolmente alle incisioni. Gli approcci tradizionali si sono basati o su esperti che confrontavano segno per segno a occhio nudo, o su software di riconoscimento dei caratteri progettati per testo moderno stampato e pulito. Entrambi faticano quando un singolo carattere può essere diviso da una crepa, parzialmente eroso o scritto con forme leggermente diverse da diversi scribi o in epoche diverse. Di conseguenza, gran parte di questo materiale resta sottoutilizzato, bloccato dalla semplice difficoltà di identificare quale carattere sia quale.

Insegnare ai computer a vedere oltre il degrado

Prism-OBI affronta il problema suddividendo il riconoscimento in due fasi coordinate anziché usare un unico modello end-to-end monolitico. Nella prima fase, il sistema si concentra solo su dove si trovano i caratteri su una frottage dell’osso, non su cosa significhino. Prima che qualsiasi IA analizzi l’immagine, un processo di pulizia in due passaggi aumenta il contrasto e filtra il rumore puntinato dello scanner, facendo risaltare meglio i tratti. La frottage ripulita viene quindi inoltrata a un rilevatore personalizzato, basato su una rete di object-detection veloce, riprogettata per essere “consapevole del degrado”. Separa le forme ampie dai dettagli fini, mette in evidenza i pattern di tratto più probabili, attenua le crepe casuali e combina informazioni a più scale in modo che siano individuabili in modo affidabile sia i caratteri minori sia quelli grandi. L’output di questa fase è un insieme di box precisi attorno a ciascuna patch sospetta di carattere.

Figure 1
Figure 1.

Dalle singole iscrizioni ritagliate ai caratteri riconosciuti

Nella seconda fase, ogni patch di carattere ritagliata viene ridimensionata a un quadrato standard e immessa in un classificatore profondo adattato da un modello di visione largamente usato. Questo classificatore è specializzato nel discriminare centinaia di segni sottilmente diversi nel dataset OBC306, che contiene oltre 300.000 caratteri di ossa oracolari distribuiti in 306 categorie, ciascuna collegata a un equivalente cinese moderno. Poiché il rilevatore ha già svolto il lavoro difficile di pulire e isolare i caratteri, il classificatore può concentrarsi sulle sottili differenze nella forma e nella disposizione dei tratti — come piccoli uncini, interruzioni o intersezioni — invece di combattere il rumore di fondo della frottage originale. I test mostrano che l’accoppiamento di un rilevatore focalizzato con un classificatore potente produce una accuratezza di riconoscimento superiore rispetto a sistemi più semplici e monofase, mantenendo comunque velocità sufficienti per un uso quasi in tempo reale.

Figure 2
Figure 2.

Un’occhiata al funzionamento interno del nuovo rilevatore

Dietro le quinte, il rilevatore di Prism-OBI impiega diversi stratagemmi su misura per gestire manufatti fortemente degradati. Un modulo separa il segnale visivo in componenti a bassa frequenza (contorni complessivi) e ad alta frequenza (bordi netti) in modo che il modello possa trattare diversamente le forme ampie e le punte delicate dei tratti, quindi applica meccanismi di attenzione per enfatizzare pattern di tratto coerenti piuttosto che fenditure casuali. Un altro modulo costruisce una piramide di viste a scale differenti e apprende quanto affidarsi a ciascuna, migliorando la rilevazione sia dei caratteri minuscoli sia di quelli più grandi senza essere travolto dal rumore. Un terzo modulo impara a pesare le caratteristiche provenienti da diversi strati della rete invece di limitarvisi a impilarle, contribuendo a preservare segnali informativi e nel contempo smorzare quelli inaffidabili. Infine, la testata di rilevamento codifica esplicitamente posizione orizzontale e verticale, fondamentale in layout affollati dove i caratteri vicini altrimenti si confonderebbero.

Cosa significano i risultati per il patrimonio culturale

Su un dataset standard per la rilevazione delle ossa oracolari, il rilevatore migliorato aumenta in modo significativo precisione, richiamo e qualità complessiva delle bounding box rispetto al modello di base, riducendo sia i caratteri mancati sia gli allarmi falsi dovuti alle crepe. Unitamente al classificatore, l’intero framework Prism-OBI raggiunge prestazioni solide nel riconoscimento dei caratteri elaborando circa 32 immagini al secondo su una GPU da laptop. I primi test qualitativi mostrano persino che lo stesso rilevatore, senza riaddestramento, può localizzare in modo significativo i caratteri in altre scritture antiche come le iscrizioni su bronzo e lo script dei sigilli, sebbene per ottenere i migliori risultati sia necessario un fine-tuning. Per i non specialisti, la conclusione chiave è che Prism-OBI offre una strada pratica ed estensibile verso la lettura automatica di scritture antiche fortemente danneggiate. Separando in modo netto “dove è la scrittura?” da “cosa dice?”, il sistema trasforma superfici ossee disordinate e fratturate in testo strutturato e ricercabile, aiutando storici e archeologi a esplorare i più antichi documenti scritti dell’umanità più rapidamente e approfonditamente che mai.

Citazione: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

Parole chiave: iscrizioni su ossa oracolari, riconoscimento di scritture antiche, deep learning, digitalizzazione del patrimonio culturale, computer vision