Clear Sky Science · sv

Multidimensionell textfunktionsfusion-baserad BA-RILA för temagenkänning av gammal kinesisk poesi

· Tillbaka till index

Varför det är viktigt att lära datorer läsa gamla dikter

Antik kinesisk poesi rymmer århundraden av känslor, historia och vardagsliv, men språket skiljer sig så markant från modern kinesiska att även experter ofta diskuterar tolkningen. När fler bibliotek och museer digitaliserar dessa verk ökar behovet av smarta verktyg som snabbt kan sortera dikter efter ämne och hjälpa forskare, studenter och allmänheten att utforska stora samlingar. Denna studie presenterar ett nytt sätt för datorer att känna igen vad en gammal dikt handlar om, genom att använda inte bara ordens betydelse utan också rytm och bildspråk för att bättre fånga den klassiska versens anda.

Att omvandla klassiska dikter till data

För att lära en dator om poesi var forskarna först tvungna att bygga en lämplig datamängd. De samlade ungefär 10 000 dikter från större kinesiska dynastier, främst Tang och Song, och märkte noggrant varje dikt med en av sex breda teman såsom vänskap och avsked, historia och nostalgi, landskap och landsbygd, kärlek och äktenskap, hemlängtan samt gräns och krig. De rensade bort brusiga eller ofullständiga texter, segmenterade klassisk kinesiska och filtrerade bort funktionsord som inte bär mycket betydelse. Ordmolnsanalyser visade att varje tema hade sitt karakteristiska vokabulär, vilket bekräftade att märkningarna överensstämde väl med det poetiska innehållet.

Figure 1. Hur AI sorterar stora samlingar av antik kinesisk poesi i teman med hjälp av innebörd, ljud och bildspråk.
Figure 1. Hur AI sorterar stora samlingar av antik kinesisk poesi i teman med hjälp av innebörd, ljud och bildspråk.

Att blanda innebörd, ljud och bildspråk

De flesta språkteknologier fokuserar på ordens betydelse, men klassisk kinesisk poesi förlitar sig också starkt på ljudmönster och symboliska bilder. Den nya BA-RILA-modellen kombinerar tre sorters information. För det första använder den en version av den populära BERT-språkmodellen som har omtränats på antik kinesiska, så att datorn bättre kan förstå gammal grammatik och klassiska vändningar. För det andra mäter den rytm med elva numeriska funktioner som fångar rim, radlängd, tonmönster och paretstrukturer och speglar hur rader låter och balanserar. För det tredje spårar den poetiska bilder genom en 75-delad beskrivning byggd från 25 kulturellt viktiga symboler, såsom pilträd för avsked eller månen för längtan, var och en med frekvens, känslomässig ton och styrka inom en dikt.

Hur modellen lär sig från hela dikter

Dessa tre informationsströmmar skiljer sig i skala, så systemet kartlägger dem först till ett gemensamt utrymme och använder en intern uppmärksamhetsmekanism för att avgöra hur stor vikt semantik, rytm och bildspråk ska ha för varje dikt. De sammansmälta funktionerna passerar sedan genom två lager av ett bidirektionellt återkommande nätverk som läser dikten både framåt och bakåt och fångar hur betydelsen utvecklas över tid. En multi-head attention-modul framhäver dessutom de mest informativa delarna av denna representation genom att betrakta den från flera vinklar samtidigt. Slutligen omvandlar ett antal fullt anslutna lager denna rika interna bild till en sannolikhetsfördelning över de sex teman och bestämmer vilket ämne som bäst matchar dikten.

Figure 2. Hur en AI-modell stegvis blandar innebörd, rytm och poetiska bilder för att bestämma ett enskilt dikts tema.
Figure 2. Hur en AI-modell stegvis blandar innebörd, rytm och poetiska bilder för att bestämma ett enskilt dikts tema.

Hur väl systemet fungerar

Omfattande tester visar att BA-RILA tydligt överträffar flera starka referensmodeller som förlitar sig enbart på modern BERT, på konvolutionsnätverk eller på enklare återkommande konstruktioner. På uppgiften med sex teman når den nya metoden en noggrannhet på omkring 97 procent, med stabil prestanda även på mindre vanliga teman. När författarna tog bort individuella delar av systemet, såsom den antik-kinesiskt anpassade BERT, rytm- och bildfusionen, de återkommande lagren eller uppmärksamhetsmodulen, sjönk prestandan märkbart, vilket indikerar att varje del bidrar meningsfullt. Modellen klarade också dikter från både Tang- och Song-perioderna, även om den fann Song-poesi något svårare eftersom dess rytmer är mindre regelbundna och språket mer diffust.

Vad detta betyder för utforskning av klassisk litteratur

För en icke-specialist är huvudbudskapet att kombinera ordens betydelse med ljud och symboliskt bildspråk gör det möjligt för datorer att sortera antika dikter efter tema på ett sätt som bättre speglar traditionella läsvanor. I stället för att behandla poesi som enkel text respekterar BA-RILA-ansatsen dess musikalitet och kulturella bildspråk, vilket leder till mer tillförlitlig automatisk märkning. Sådana verktyg skulle kunna göra det lättare att söka i stora arkiv, jämföra poeter över dynastier eller studera hur teman som hemlängtan eller krig utvecklats över tid, vilket stödjer både akademisk forskning och allmänhetens uppskattning av klassisk kinesisk kultur.

Citering: Zhang, X., Liu, Y. Multi-dimensional text feature fusion-based BA-RILA for ancient Chinese poetry theme recognition. Sci Rep 16, 16573 (2026). https://doi.org/10.1038/s41598-026-48986-2

Nyckelord: antik kinesisk poesi, temaklassificering, textfunktionsfusion, poetiska bilder, kulturell NLP