Clear Sky Science · de

SCAD: selbstüberwachtes kontrastives Lernen zur Erkennung von Anspielungen in chinesischen Gedichten

· Zurück zur Übersicht

Verborgene Botschaften in alten Versen

Die klassische chinesische Dichtung ist voll mit versteckten Bezügen auf bekannte Geschichten, Legenden und historische Figuren. Diese „Anspielungen“ verleihen emotionale Tiefe und kulturelle Fülle, machen die Gedichte aber zugleich für moderne Leser — und für Computer — schwer verständlich. Dieser Beitrag stellt ein neues KI-System namens SCAD vor, das solche verborgenen Bezüge automatisch und im großen Maßstab aufdecken kann und damit die Grundlage für intelligentere digitale Werkzeuge zum Lesen, Unterrichten und Forschen über chinesische Literatur legt.

Warum Anspielungen in der Dichtung wichtig sind

Jahrhundertelang nutzten chinesische Dichter Anspielungen als eine Art literarische Kurzschrift. Indem sie auf eine wohlbekannte Erzählung anspielten — etwa ein idyllisches verborgenes Dorf oder eine trauernde Flussgöttin — konnten sie komplexe Gefühle mit nur wenigen Schriftzeichen ausdrücken. Das Problem ist, dass diese Hinweise oft sehr subtil sind. Ein Gedicht nennt womöglich nie den Namen der Geschichte, auf die es sich bezieht; stattdessen evoziert es einen Ort, einen Gegenstand oder ein Bild, das mit jener Tradition verbunden ist. Da dasselbe Wort je nach Kontext auf unterschiedliche Geschichten verweisen kann, tun sich selbst fortgeschrittene Computersysteme schwer, zuverlässig zu erkennen, welche Anspielung ein Gedicht nutzt — vor allem, wenn es tausende mögliche Kandidaten und nur begrenzte beschriftete Trainingsdaten gibt.

Figure 1
Figure 1.

Maschinen durch Vergleiche lehren

Die Autorinnen und Autoren begegnen dieser Herausforderung mit einer Strategie namens selbstüberwachtes kontrastives Lernen, speziell angepasst an das klassische Chinesisch. Anstatt Menschen zu bitten, jedes Gedicht manuell mit der richtigen Anspielung zu kennzeichnen, erstellen sie eine große Sammlung von Gedicht–Anspielungs-Paaren aus einer kuratierten Website, die dokumentiert, wie über 14.000 Gedichte auf 1.025 spezifische Anspielungen verweisen. Für jedes echte Paar — ein Gedicht, das tatsächlich eine bestimmte Geschichte verwendet — generieren sie automatisch „negative“ Paare, indem dasselbe Gedicht mit vielen nicht verwandten Anspielungen kombiniert wird. SCAD lernt, das echte Paar von den falschen zu unterscheiden, indem verwandte Gedicht–Anspielungs-Texte in seinem internen Repräsentationsraum näher zusammengezogen und nicht verwandte weiter auseinander geschoben werden.

Ein Modell abgestimmt auf altchinesische Texte

Unter der Haube baut SCAD auf SikuBert auf, einem Sprachmodell, das auf großen Sammlungen vormoderner chinesischer Schriften trainiert wurde. Das System führt sowohl das Gedicht als auch die Anspielung (einschließlich der ursprünglichen Quellstelle) in einen gemeinsamen Encoder ein, sodass das Modell darauf achten kann, wie bestimmte Formulierungen im Gedicht mit Details der Geschichte interagieren. Leichte „Adapter“-Module werden diesem Encoder hinzugefügt, sodass nur eine kleine Anzahl neuer Parameter trainiert werden muss, was das Feinabstimmen effizient macht. Eine verbesserte Verlustfunktion gewichtet die schwierigsten negativen Beispiele — die irreführenden Anspielungen, zu denen das Modell geneigt ist — stärker, sodass SCAD aus seinen häufigsten Fehlern lernt und nicht nur aus einfachen Fällen.

Bestehende Ansätze übertreffen

Im Vergleich zu einer Reihe alternativer Methoden — darunter frühere Deep-Learning-Systeme, regelbasierte Verfahren und sogar große allgemeine Sprachmodelle — erweist sich SCAD als deutlich genauer bei der Benennung der korrekten Anspielung in einem Gedicht. Es platziert die richtige Antwort im Durchschnitt nicht nur höher, sondern identifiziert sie auch in etwa vier von fünf Testfällen als erste Wahl, ein deutlicher Gewinn gegenüber früheren Techniken. Ablationsstudien zeigen, dass jede Designentscheidung beiträgt: das Pretraining auf klassischer statt moderner Sprache, die Einbeziehung des vollständigen Quelltexts der Anspielung, das Hinzufügen von Adaptern und die Neubewertung schwerer negativer Beispiele verbessern alle die Leistung, besonders bei seltenen oder subtilen Anspielungen.

Figure 2
Figure 2.

Neue Verbindungen entdecken und Wissenslandkarten erstellen

Über die bloße Genauigkeit hinaus untersuchen die Autoren, wie SCAD generalisieren und seine Entscheidungen erklären kann. In „Zero-Shot“-Tests entfernen sie absichtlich bestimmte berühmte Anspielungen und alle zugehörigen Gedichte aus dem Training und fragen SCAD anschließend, diese dennoch zu erkennen. Das System liefert weiterhin starke Ergebnisse, was darauf hindeutet, dass es allgemeine Muster gelernt hat, wie Dichter auf Geschichten anspielen, statt nur eine feste Checkliste auswendig zu lernen. Um diese Entscheidungen nachzuvollziehen, wenden die Forschenden eine Interpretierbarkeitsmethode namens LIME an, die die spezifischen Wörter in einem Gedicht hervorhebt, die SCADs Vorhersage am meisten beeinflussen. Mit diesen Signalen extrahieren sie fast 10.000 „Anspielungswörter“ und fügen sie zu einem Wissensgraphen zusammen, der Gedichte, evocative Phrasen und die Geschichten, die sie aufrufen, verbindet — eine Ressource, die Suche, Lernwerkzeuge und interaktive Quizze antreiben kann.

Alte Hinweise ins digitale Zeitalter bringen

Im Kern zeigt diese Arbeit, dass Maschinen mit den richtigen Trainingssignalen und einer geeigneten Architektur beginnen können, die literarischen Anspielungen und Andeutungen in der klassischen chinesischen Dichtung zu erfassen. SCAD erkennt nicht nur, welche Geschichte ein Gedicht stillschweigend aufruft, sondern kann auch auf neue Anspielungen generalisieren und dabei helfen, das komplexe Netz von Verweisen abzubilden, das Gedichte miteinander und mit der weiteren kulturellen Tradition verbindet. Für Leser, Studierende und Wissenschaftler könnten auf diesem Ansatz basierende Systeme zu Führern werden, die die verborgenen Bedeutungsschichten einiger der anspielungsreichsten Literaturen der Welt erhellen.

Zitation: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z

Schlüsselwörter: klassische chinesische Dichtung, literarische Anspielungen, kontrastives Lernen, digitale Geisteswissenschaften, natürliche Sprachverarbeitung