Clear Sky Science · pt

Prism-OBI: um novo arcabouço para reconhecimento de inscrições ósseas oraculares via percepção visual e desacoplamento de características

· Voltar ao índice

Pistas Antigas em Ossos Rachados

Há mais de três mil anos, pessoas na China antiga gravavam perguntas aos deuses em ossos de animais e carapaças de tartaruga, criando a forma mais antiga conhecida da escrita chinesa. Hoje, essas inscrições ósseas oraculares são pistas valiosas para a história remota — mas a maioria sobrevive apenas como fragmentos desgastados e rachados, extremamente difíceis de ler, mesmo para especialistas. Este artigo apresenta o Prism-OBI, um novo sistema de inteligência artificial projetado para ver além dos danos, separar traços significativos de ruídos geológicos e ajudar estudiosos a desvendar esses registros frágeis em escala.

Por que Ossos Antigos São Difíceis de Ler

Os ossos oraculares suportaram milênios enterrados, comprimidos pelo solo, encharcados e secos pelas mudanças climáticas, e fraturados durante escavações. A escrita muitas vezes está débil, fragmentada ou ausente, e as superfícies ósseas estão cheias de fissuras e manchas que se parecem enganadoramente com os traços gravados. Abordagens tradicionais dependiam de especialistas comparando cada sinal visualmente com muito cuidado, ou de softwares padrão de reconhecimento de caracteres feitos para texto impresso moderno e limpo. Ambas as estratégias falham quando um único caractere pode estar partido por uma rachadura, parcialmente erodido ou desenhado em formas ligeiramente diferentes por vários escribas e por épocas distintas. Como resultado, grande parte desse material permanece subutilizada, retida pela dificuldade simples de identificar qual caractere é qual.

Ensinando Computadores a Ver Além dos Danos

O Prism-OBI resolve esse problema dividindo o reconhecimento em dois estágios coordenados, em vez de usar um único modelo monolítico de ponta a ponta. No primeiro estágio, o sistema foca apenas em onde os caracteres estão em uma folha de raspagem do osso, não no que eles significam. Antes de qualquer IA analisar a imagem, um processo de limpeza em duas etapas aumenta o contraste e filtra ruído pontilhado do scanner, fazendo os traços se destacarem com mais clareza. A raspagem limpa é então enviada a um detector personalizado, baseado em uma rede rápida de detecção de objetos, reengenheirada para ser “sensível à degradação”. Ele separa formas amplas de detalhes finos, realça padrões prováveis de traços, ameniza rachaduras aleatórias e combina informações em múltiplas escalas para que caracteres minúsculos e grandes possam ser detectados de forma confiável. A saída deste estágio é um conjunto de caixas ajustadas em torno de cada provável região de caractere.

Figure 1
Figure 1.

Das Placas Recortadas aos Caracteres Reconhecidos

No segundo estágio, cada recorte de caractere é redimensionado para um quadrado padrão e alimentado a um classificador de rede neural profunda adaptado de um modelo de visão amplamente usado. Esse classificador se especializa em distinguir centenas de sinais sutilmente diferentes no conjunto de dados OBC306, que contém mais de 300.000 caracteres ósseos oraculares distribuídos em 306 categorias, cada uma vinculada a um equivalente do chinês moderno. Como o detector já realizou o trabalho árduo de limpar e isolar os caracteres, o classificador pode se concentrar nas distinções finas na forma e no arranjo dos traços — como ganchos minúsculos, rupturas ou interseções — em vez de combater o ruído de fundo da raspagem original. Testes mostram que esse pareamento de um detector focado com um classificador robusto oferece maior precisão de reconhecimento do que sistemas mais simples e de estágio único, mantendo velocidade suficiente para uso quase em tempo real.

Figure 2
Figure 2.

O Que Há por Trás do Novo Detector

Nos bastidores, o detector do Prism-OBI usa várias técnicas adaptadas para lidar com artefatos fortemente degradados. Um módulo divide o sinal visual em componentes de baixa frequência (contornos gerais) e alta frequência (bordas nítidas) para que o modelo trate formas amplas e pontas de traço delicadas de maneira diferente, aplicando depois mecanismos de atenção para enfatizar padrões de traço consistentes em detrimento de fissuras aleatórias. Outro módulo constrói uma pirâmide de visualizações em diferentes escalas e aprende quanto confiar em cada uma, o que melhora a detecção tanto de caracteres minúsculos quanto de maiores sem ser dominado pelo ruído. Um terceiro módulo aprende a ponderar características de diferentes camadas da rede em vez de simplesmente empilhá-las, ajudando a preservar sinais informativos enquanto silencia os menos confiáveis. Finalmente, a cabeça de detecção codifica explicitamente posição horizontal e vertical, vital em layouts densos onde caracteres vizinhos poderiam se confundir.

O Que os Resultados Significam para o Patrimônio Cultural

Em um conjunto de dados padrão de detecção de ossos oraculares, o detector aprimorado melhora significativamente precisão, revocação e qualidade geral das caixas delimitadoras em comparação com o modelo base, reduzindo tanto caracteres perdidos quanto falsos positivos causados por rachaduras. Combinado com o classificador, o arcabouço completo Prism-OBI alcança desempenho sólido no reconhecimento de caracteres enquanto processa cerca de 32 imagens por segundo em uma GPU de laptop. Testes qualitativos iniciais mostram ainda que o mesmo detector, sem retreinamento, pode localizar de forma significativa caracteres em outros alfabetos antigos, como inscrições em bronze e escrita de selo, embora ajustes finos sejam necessários para melhores resultados. Para não especialistas, a principal conclusão é que o Prism-OBI oferece um caminho prático e extensível para ler automaticamente escritas antigas fortemente danificadas. Ao separar claramente “onde está a escrita?” de “o que ela diz?”, o sistema transforma superfícies ósseas bagunçadas e fragmentadas em texto estruturado e pesquisável, ajudando historiadores e arqueólogos a explorar os primeiros registros escritos da humanidade de maneira mais rápida e aprofundada do que nunca.

Citação: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

Palavras-chave: inscrições ósseas oraculares, reconhecimento de escrita antiga, aprendizado profundo, digitalização do patrimônio cultural, visão computacional