Clear Sky Science · fr
SCAD : apprentissage contrastif auto-supervisé pour la détection d’allusions dans les poèmes chinois
Messages cachés dans des vers anciens
Les poèmes chinois classiques regorgent de références cachées à des récits célèbres, des légendes et des personnages historiques. Ces « allusions » enrichissent émotionnellement et culturellement les textes, mais elles rendent aussi les poèmes difficiles à comprendre pour les lecteurs modernes — et pour les ordinateurs. Cet article présente un nouveau système d’intelligence artificielle, SCAD, capable de découvrir automatiquement ces références enfouies à grande échelle, ouvrant la voie à des outils numériques plus intelligents pour la lecture, l’enseignement et la recherche en littérature chinoise.
Pourquoi les allusions comptent en poésie
Pendant des siècles, les poètes chinois ont utilisé les allusions comme une forme de langage elliptique. En évoquant un récit bien connu — par exemple un village caché idyllique ou une déesse fluviale en deuil — ils pouvaient exprimer des sentiments complexes en quelques caractères. Le problème, c’est que ces indices sont souvent subtils. Un poème peut ne jamais nommer explicitement l’histoire à laquelle il renvoie ; il évoque plutôt un lieu, un objet ou une image rattachés à cette tradition. Comme un même mot peut renvoyer à des récits différents selon le contexte, même des systèmes informatiques avancés peinent à reconnaître de façon fiable l’allusion employée, surtout lorsqu’il existe des milliers de candidats possibles et peu de données annotées.

Apprendre aux machines par comparaison
Les auteurs abordent ce défi avec une stratégie appelée apprentissage contrastif auto-supervisé, adaptée spécialement au chinois classique. Plutôt que de demander à des humains d’annoter chaque poème avec la bonne allusion, ils constituent une vaste collection de paires poème–allusion à partir d’un site web documenté, qui recense comment plus de 14 000 poèmes citent 1 025 allusions spécifiques. Pour chaque paire réelle — un poème qui utilise effectivement une certaine histoire — ils génèrent automatiquement des paires « négatives » en associant le même poème à de nombreuses allusions non liées. SCAD apprend à distinguer la paire vraie des paires fausses en rapprochant dans son espace de représentation interne les textes poème–allusion liés et en éloignant les non liés.
Un modèle adapté aux textes chinois anciens
Dans les coulisses, SCAD s’appuie sur SikuBert, un modèle de langage entraîné sur de larges corpus d’écrits prémodernes chinois. Le système alimente à la fois le poème et l’allusion (y compris le passage source original) dans un encodeur conjoint, ce qui permet au modèle de se concentrer sur la façon dont des phrases spécifiques d’un poème interagissent avec des détails de l’histoire. Des modules « adapters » légers sont ajoutés à cet encodeur afin que seuls un petit nombre de nouveaux paramètres nécessitent un entraînement, rendant l’ajustement fin efficace. Une fonction de perte améliorée accorde un poids supplémentaire aux exemples négatifs les plus difficiles — les allusions trompeuses que le modèle risque de choisir — de sorte que SCAD apprend davantage de ses erreurs les plus courantes plutôt que des cas faciles.
Des performances supérieures aux approches existantes
Testé face à diverses alternatives — y compris des systèmes d’apprentissage profond antérieurs, des méthodes à règles, et même de grands modèles linguistiques généraux — SCAD s’avère nettement plus précis pour identifier la bonne allusion dans un poème. Il classe non seulement la bonne réponse en position plus élevée en moyenne, mais l’identifie aussi comme premier choix dans environ quatre cas sur cinq, un gain clair par rapport aux techniques précédentes. Des études d’ablation montrent que chaque choix de conception contribue : l’entraînement sur une langue classique plutôt que moderne, l’inclusion du texte source complet de l’allusion, l’ajout d’adapters et la réévaluation des exemples négatifs difficiles améliorent tous les performances, notamment pour les allusions rares ou subtiles.

Découvrir de nouveaux liens et construire des cartes de connaissance
Au-delà de la simple précision, les auteurs explorent la généralisation et l’explicabilité de SCAD. Dans des tests « zero-shot », ils retirent délibérément certaines allusions célèbres et tous les poèmes associés de l’entraînement, puis demandent à SCAD de les reconnaître quand même. Le système performe toujours bien, ce qui suggère qu’il a appris des schémas généraux sur la façon dont les poètes évoquent des récits plutôt que de mémoriser une liste figée. Pour examiner ces décisions, l’équipe applique une méthode d’interprétabilité appelée LIME, qui met en évidence les mots spécifiques d’un poème qui influencent le plus la prédiction de SCAD. À partir de ces signaux, ils extraient près de 10 000 « mots d’allusion » et les assemblent en un graphe de connaissances reliant poèmes, phrases évocatrices et récits évoqués — une ressource susceptible d’alimenter des fonctions de recherche, des outils d’étude et des questionnaires interactifs.
Mettre les indices anciens à l’ère numérique
En substance, ce travail montre qu’avec les bons signaux d’entraînement et une architecture adaptée, les machines peuvent commencer à saisir les clins d’œil littéraires intégrés dans la poésie chinoise classique. SCAD ne se contente pas de détecter quelle histoire un poème invoque discrètement, il peut aussi généraliser à de nouvelles allusions et aider à cartographier le réseau complexe de références qui relie les poèmes entre eux et à la tradition culturelle plus large. Pour les lecteurs, les étudiants et les chercheurs, des systèmes fondés sur cette approche pourraient devenir des guides éclairant les couches cachées de sens d’une littérature parmi les plus riches en allusions au monde.
Citation: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z
Mots-clés: poésie chinoise classique, allusions littéraires, apprentissage contrastif, humanités numériques, traitement automatique du langage