Clear Sky Science · pt

Verificação de escribas em tiras de bambu de Tsinghua usando redes siamesas

· Voltar ao índice

Livros antigos encontram código moderno

Muito antes do papel e das telas, pensadores chineses escreviam em tiras finas de bambu. Hoje, esses manuscritos frágeis são verdadeiras minas de ouro para historiadores, mas uma pergunta básica é surpreendentemente difícil de responder: quais tiras foram escritas pela mesma mão? Este estudo combina arqueologia e inteligência artificial para construir um assistente digital que pode ajudar estudiosos a identificar quem escreveu o quê em milhares de tiras de bambu de 2.300 anos da famosa coleção da Universidade de Tsinghua.

Figure 1
Figure 1.

Por que a caligrafia importa

As tiras de bambu de Tsinghua datam do período dos Estados Combatentes, pouco antes do primeiro império chinês. Elas preservam versões antigas de textos sobre política, história e filosofia que moldaram — ou foram perdidos na — tradição posterior. Para compreender de fato esses escritos, os pesquisadores precisam saber como as tiras foram agrupadas, quais partes pertencem ao mesmo manuscrito e quantos escribas trabalharam nelas. Tradicionalmente, especialistas respondem a essas perguntas a olho nu, avaliando suavidade dos traços, pressão e disposição dos sinais. Esse ofício é lento, subjetivo e difícil de escalar conforme surgem novas descobertas.

Transformando traços em dados

Os autores propuseram ensinar um computador a comparar caracteres manuscritos individuais recortados de fotos em alta resolução das tiras. Primeiro, construíram uma grande coleção de imagens: 15.745 caracteres isolados de 11 escribas previamente identificados, com base em estudos paleográficos por consenso. Usando software profissional de processamento de imagem, removeram ruído de fundo, isolaram cada caractere dentro de um retângulo e filtraram sinais danificados ou sobrepostos. Em seguida, ampliaram as classes menores — escribas com apenas alguns caracteres preservados — por meio de truques simples como espelhamento, rotação, recorte e adição de ruído, para que o algoritmo não ficasse tendencioso em direção a estilos mais comuns.

Uma rede gêmea que busca semelhanças

Em vez de pedir ao computador para nomear o autor de cada caractere, a equipe colocou uma questão mais simples e flexível: essas duas imagens vêm da mesma mão? Para isso, usaram uma rede neural “siamesa”, um par de ramos idênticos de processamento de imagem que compartilham parâmetros. Cada ramo converte a imagem do caractere em uma impressão digital numérica compacta. O sistema então mede a distância entre as duas impressões: distâncias pequenas sugerem o mesmo escriba; distâncias maiores indicam escribas diferentes. No núcleo de cada ramo está um modelo leve aprimorado chamado MobileNet_V3+, reforçado com um mecanismo de atenção que aprende a enfatizar os recursos visuais mais reveladores — curvas sutis, espessura do traço ou modos preferenciais de formar partes dos caracteres — enquanto atenua detalhes menos úteis.

Figure 2
Figure 2.

Qual o desempenho do sistema

No conjunto de dados de Tsinghua, a melhor versão do modelo acertou se pares de caracteres provinham do mesmo escriba em cerca de 90% dos casos, com uma pontuação muito alta em um teste padrão de discriminação binária. Superou vários sistemas de reconhecimento de imagem mais pesados, como ResNet, VGG e Vision Transformers, que tendiam a superajustar os dados limitados ou a perder as sutilezas estilísticas necessárias para essa tarefa. Inspeções visuais dos “mapas de atenção” da rede mostraram que, conforme o treinamento avançou, o modelo deixou de focar na silhueta geral e passou a mirar segmentos-chave dos traços — muito parecido com um especialista humano.

Auxiliando a resolver debates acadêmicos reais

Para avaliar a utilidade da ferramenta além do laboratório, os autores a aplicaram a vários manuscritos em bambu cuja autoria tem sido debatida por anos. Para três textos (“Ji Gong”, “Hou Fu” e “She Ming”), estudos anteriores passaram a considerar que foram escritos pelo mesmo escriba dentro do grupo mais amplo “Yin Zhi”. O modelo corroborou fortemente essa visão, encontrando alta similaridade em todos os pareamentos. Para outro par, “Zhi Zheng” e “Zhi Bang”, pesquisadores discutiam se um único ou vários escribas haviam participado. As comparações da rede sugeriram que as páginas 1–42 de “Zhi Zheng” formavam um estilo de escrita distinto, enquanto a página 43 de “Zhi Zheng” combinava de perto com “Zhi Bang” mas não com as páginas anteriores — indício de dois escribas separados que não faziam parte de nenhuma categoria previamente definida.

O que isso significa para o passado e o futuro

Em termos simples, este trabalho mostra que um sistema compacto de IA pode, de forma confiável, indicar quando dois pequenos fragmentos de caligrafia antiga provavelmente vêm da mesma pessoa, mesmo ao ver apenas caracteres isolados. Não substituirá o julgamento de especialistas, mas pode vasculhar rapidamente coleções extensas, sinalizar correspondências prováveis e fornecer respaldo quantitativo a favor ou contra determinadas agrupamentos de tiras. Além do acervo de Tsinghua, a mesma abordagem poderia ser adaptada a outros registros frágeis, desde ossos de oráculo até pergaminhos da Rota da Seda, ajudando historiadores e linguistas a reconstruir como ideias se moveram no tempo e no espaço.

Citação: Wang, H., Li, M., Liu, B. et al. Tsinghua bamboo slip scribe verification using Siamese networks. npj Herit. Sci. 14, 147 (2026). https://doi.org/10.1038/s40494-026-02416-8

Palavras-chave: tiras de bambu, análise de caligrafia, aprendizado profundo, patrimônio cultural, rede siamês