Clear Sky Science · pl

SCAD: uczenie kontrastowe w trybie samonadzoru do wykrywania aluzji w chińskich wierszach

· Powrót do spisu

Ukryte przesłania w starożytnych wierszach

Klasyczne chińskie wiersze pełne są ukrytych odniesień do słynnych opowieści, legend i postaci historycznych. Te „aluzje” dodają utworom emocjonalnej głębi i bogactwa kulturowego, ale jednocześnie utrudniają ich rozumienie współczesnym czytelnikom — i komputerom. W artykule przedstawiono nowy system sztucznej inteligencji, SCAD, który potrafi automatycznie odkrywać te zakopane odniesienia na dużą skalę, otwierając drogę do bardziej zaawansowanych narzędzi cyfrowych do czytania, nauczania i badań nad literaturą chińską.

Dlaczego aluzje są ważne w poezji

Przez wieki chińscy poeci wykorzystywali aluzje jako swego rodzaju literackie skróty. Sugerując znaną opowieść — na przykład idylliczną ukrytą wioskę czy opłakującą boginię rzeki — mogli wyrazić złożone emocje kilkoma znakami. Problem w tym, że te wskazówki bywają subtelne. Wiersz często nie wymienia nazwy opowieści, na którą się powołuje; zamiast tego przywołuje miejsce, przedmiot lub obraz związany z tą tradycją. Ponieważ to samo słowo może odnosić się do różnych historii zależnie od kontekstu, nawet zaawansowane systemy komputerowe mają trudności z rozpoznaniem, którą aluzję wykorzystuje utwór — zwłaszcza gdy kandydatów jest tysiące, a oznakowanych przykładów niewiele.

Figure 1
Figure 1.

Nauczanie maszyn przez porównania

Autorzy rozwiązują ten problem za pomocą strategii zwanej samonadzorowanym uczeniem kontrastowym, specjalnie dostosowanej do klasycznego chińskiego. Zamiast prosić ludzi o oznaczanie każdego wiersza właściwą aluzją, zbudowali dużą kolekcję par wiersz–aluzja z kuratorowanej strony dokumentującej, jak ponad 14 000 wierszy cytuje 1 025 konkretnych aluzji. Dla każdej prawdziwej pary — wiersza, który rzeczywiście odwołuje się do danej historii — automatycznie generują „negatywne” pary, dopasowując ten sam wiersz do wielu niezwiązanych aluzji. SCAD uczy się odróżniać autentyczne pary od fałszywych, przyciągając pokrewne teksty wiersz–aluzja bliżej w wewnętrznej przestrzeni reprezentacji i odpychając te niezwiązane.

Model dostrojony do tekstów starożytnego chińskiego

W środku SCAD opiera się na SikuBert, modelu językowym trenowanym na dużych zbiorach przednowoczesnych pism chińskich. System przekazuje zarówno wiersz, jak i aluzję (wraz z jej oryginalnym fragmentem źródłowym) do wspólnego enkodera, co pozwala modelowi skupić się na tym, jak konkretne frazy w wierszu oddziałują z detalami z opowieści. Do tego enkodera dodano lekkie moduły „adapterów”, dzięki czemu trzeba trenować tylko niewielką liczbę nowych parametrów, co czyni strojenie efektywnym. Ulepszona funkcja straty przypisuje większą wagę najtrudniejszym negatywnym przykładom — mylącym aluzjom, które model jest skłonny wybrać — tak aby SCAD uczył się na swoich najczęstszych błędach, a nie tylko na łatwych przypadkach.

Przewyższanie dotychczasowych metod

W testach przeciwko różnym alternatywom — w tym wcześniejszym systemom uczenia głębokiego, metodom regułowym, a nawet dużym uniwersalnym modelom językowym — SCAD okazuje się znacząco dokładniejszy w określaniu właściwej aluzji w wierszu. Nie tylko średnio wyżej ocenia prawidłową odpowiedź, lecz także wybiera ją jako najlepszą opcję w około czterech na pięć przypadków testowych, co stanowi wyraźny postęp w porównaniu z wcześniejszymi technikami. Badania ablacyjne pokazują, że każdy element projektu wnosi wkład: pretrenowanie na klasycznym, a nie współczesnym języku, dołączenie pełnego tekstu źródłowego aluzji, dodanie adapterów i przeważenie trudnych negatywów — wszystko to poprawia wydajność, zwłaszcza w przypadku rzadkich lub subtelnych aluzji.

Figure 2
Figure 2.

Odkrywanie nowych powiązań i budowa map wiedzy

Ponad surową dokładnością autorzy badają, jak SCAD potrafi uogólniać i tłumaczyć swoje decyzje. W testach „zero-shot” celowo usuwają pewne znane aluzje i wszystkie powiązane wiersze z treningu, a następnie proszą SCAD o ich rozpoznanie mimo to. System nadal radzi sobie dobrze, co sugeruje, że nauczył się ogólnych wzorców, w jaki sposób poeci sugerują opowieści, zamiast zapamiętywać stałą listę skojarzeń. Aby zajrzeć w te decyzje, zespół stosuje metodę interpretowalności LIME, która podkreśla konkretne słowa w wierszu najbardziej wpływające na przewidywanie SCAD. Wykorzystując te sygnały, wyodrębniają niemal 10 000 „słów aluzji” i składają je w graf wiedzy łączący wiersze, pobudzające wyobraźnię frazy i przywoływane przez nie historie — zasób, który może zasilać wyszukiwanie, narzędzia do nauki i interaktywne quizy.

Wprowadzanie starożytnych odniesień do ery cyfrowej

W istocie praca ta pokazuje, że przy odpowiednich sygnałach treningowych i architekturze maszyny mogą zacząć wychwytywać literackie mrugnięcia i skłony zawarte w klasycznej poezji chińskiej. SCAD nie tylko wykrywa, którą opowieść wiersz cicho przywołuje, lecz także potrafi uogólniać na nowe aluzje i pomaga mapować złożoną sieć odniesień łączących wiersze ze sobą i z szerszą tradycją kulturową. Dla czytelników, studentów i badaczy systemy oparte na tym podejściu mogą stać się przewodnikami, które oświetlą ukryte warstwy znaczeń w jednej z najbardziej bogatych w aluzje literatur na świecie.

Cytowanie: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z

Słowa kluczowe: klasyczna poezja chińska, aluzje literackie, uczenie kontrastowe, humanistyka cyfrowa, przetwarzanie języka naturalnego