Clear Sky Science · pt

SCAD: aprendizado contrastivo auto-supervisionado para detecção de alusões em poemas chineses

· Voltar ao índice

Mensagens ocultas em versos antigos

Os poemas clássicos chineses estão repletos de referências ocultas a histórias famosas, lendas e figuras históricas. Essas “alusões” acrescentam profundidade emocional e riqueza cultural, mas também tornam os poemas difíceis de entender para leitores modernos — e para computadores. Este artigo apresenta um novo sistema de inteligência artificial, SCAD, capaz de descobrir automaticamente essas referências enterradas em larga escala, abrindo caminho para ferramentas digitais mais inteligentes para leitura, ensino e pesquisa da literatura chinesa.

Por que as alusões importam na poesia

Por séculos, poetas chineses recorreram às alusões como uma espécie de atalho literário. Ao sugerir um conto bem conhecido — como uma aldeia idílica escondida ou uma deusa fluvial em pranto — eles podiam expressar sentimentos complexos em apenas alguns caracteres. O problema é que essas pistas são frequentemente sutis. Um poema pode nunca mencionar o nome da história a que recorre; em vez disso, evoca um lugar, um objeto ou uma imagem ligados àquela tradição. Como a mesma palavra pode remeter a histórias diferentes dependendo do contexto, até sistemas computacionais avançados têm dificuldade para reconhecer com fiabilidade qual alusão um poema está usando, especialmente quando há milhares de candidatas possíveis e poucos dados rotulados para treino.

Figure 1
Figure 1.

Ensinando máquinas a aprender por comparação

Os autores enfrentam esse desafio com uma estratégia chamada aprendizado contrastivo auto-supervisionado, adaptada especialmente para o chinês clássico. Em vez de pedir a humanos que rotulem cada poema com a alusão correta, eles constroem uma grande coleção de pares poema–alusão a partir de um site curado que documenta como mais de 14.000 poemas citam 1.025 alusões específicas. Para cada par real — um poema que de fato usa determinada história — eles geram automaticamente pares “negativos” associando o mesmo poema a muitas alusões não relacionadas. O SCAD aprende a distinguir o par genuíno dos falsos aproximando textos de poema–alusão relacionados em seu espaço de representação interno e afastando os não relacionados.

Um modelo ajustado para textos chineses antigos

No núcleo, o SCAD se baseia no SikuBert, um modelo de linguagem treinado em grandes coleções de escritos pré-modernos chineses. O sistema alimenta tanto o poema quanto a alusão (incluindo sua passagem de origem) em um codificador conjunto, permitindo que o modelo foque em como frases específicas do poema interagem com detalhes da história. Módulos “adapter” leves são adicionados a esse codificador para que apenas um pequeno número de novos parâmetros precise ser treinado, tornando o ajuste fino mais eficiente. Uma função de perda aprimorada dá peso extra aos exemplos negativos mais difíceis — as alusões enganosas que tendem a confundir o modelo — para que o SCAD aprenda com seus erros mais comuns em vez de apenas com casos fáceis.

Superando abordagens existentes

Quando testado contra uma variedade de alternativas — incluindo sistemas de deep learning anteriores, métodos baseados em regras e até grandes modelos de linguagem de propósito geral — o SCAD mostra-se marcadamente mais preciso ao identificar a alusão correta em um poema. Ele não só classifica a resposta certa em posição mais alta, em média, como também a aponta como escolha principal em cerca de quatro em cada cinco casos de teste, um ganho claro sobre técnicas anteriores. Estudos de ablação mostram que cada escolha de projeto contribui: usar pré-treinamento em língua clássica em vez de moderna, incluir o texto completo da fonte da alusão, adicionar adapters e reponderar exemplos negativos difíceis melhoram o desempenho, especialmente em alusões raras ou sutis.

Figure 2
Figure 2.

Descobrindo novas ligações e construindo mapas de conhecimento

Além da precisão bruta, os autores exploram como o SCAD pode generalizar e explicar suas decisões. Em testes “zero-shot”, eles removem deliberadamente certas alusões famosas e todos os poemas relacionados do treinamento, e então pedem ao SCAD para reconhecê-las mesmo assim. O sistema continua a apresentar desempenho sólido, o que sugere que aprendeu padrões gerais sobre como os poetas aludem a histórias em vez de memorizar uma lista fixa. Para investigar essas decisões, a equipe aplica um método de interpretabilidade chamado LIME, que destaca as palavras específicas num poema que mais influenciam a predição do SCAD. Com esses sinais, eles extraem quase 10.000 “palavras de alusão” e as organizam em um gráfico de conhecimento que liga poemas, frases evocativas e as histórias que evocam — um recurso que pode alimentar busca, ferramentas de estudo e questionários interativos.

Levando dicas antigas para a era digital

Em essência, este trabalho demonstra que, com os sinais de treinamento e a arquitetura adequados, as máquinas podem começar a captar as piscadelas e insinuações literárias embutidas na poesia clássica chinesa. O SCAD não apenas detecta qual história um poema está sutilmente invocando, como também pode generalizar para novas alusões e ajudar a mapear a intrincada teia de referências que liga poemas entre si e à tradição cultural mais ampla. Para leitores, estudantes e estudiosos, sistemas construídos sobre essa abordagem podem se tornar guias que iluminam as camadas ocultas de significado em algumas das literaturas mais ricas em alusões do mundo.

Citação: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z

Palavras-chave: poesia chinesa clássica, alusões literárias, aprendizado contrastivo, humanidades digitais, processamento de linguagem natural