Clear Sky Science · ja

古典漢詩の主題認識に向けた多次元テキスト特徴融合型BA-RILA

· 一覧に戻る

コンピュータに古典詩を読ませる意義

古典漢詩は何世紀にもわたる感情、歴史、日常を内包していますが、その言語は現代中国語と大きく異なるため、専門家の間でも解釈が分かれることがあります。図書館や博物館がこれらの作品をデジタル化するにつれて、詩を主題別に迅速に分類できる賢いツールの需要が高まっています。こうした工具は学者や学生、一般の利用者が膨大なコレクションを探索するのを助けます。本研究は、語義だけでなく韻律やイメージも利用して、古典詩の精神をよりよく捉え、詩が何について書かれているかをコンピュータが認識する新たな手法を提示します。

古典詩をデータ化する

コンピュータに詩を学習させるには、まず適切なデータセットを構築する必要がありました。研究者は主に唐・宋の主要な王朝から約1万首の詩を収集し、友情・別れ、歴史・郷愁、山水・田園、恋愛・結婚、思郷、辺塞・戦争といった6つの大きな主題に慎重にラベル付けしました。ノイズの多い不完全なテキストは除去し、古典中国語の分かち書きを行い、意味をあまり持たない機能語をフィルタリングしました。ワードクラウド分析により各主題が特徴的な語彙を持つことが示され、ラベルが詩的内容とよく一致していることが確認されました。

Figure 1. 意味・音・イメージを用いて大量の古典漢詩を主題別に整理するAIの方法。
Figure 1. 意味・音・イメージを用いて大量の古典漢詩を主題別に整理するAIの方法。

意味・音・イメージの融合

多くの言語技術は語義のみに着目しますが、古典漢詩は音のパターンや象徴的イメージに大きく依存します。新しいBA-RILAモデルは三種類の情報を組み合わせます。まず、古典中国語で再訓練したBERTのバージョンを用い、古い文法や慣用表現をよりよく理解させます。次に、韻や行長、声調パターン、対句構造などを捉える11の数値的特徴でリズムを測定し、行の音や均衡を反映します。第三に、柳の別れや月の憧れといった文化的に重要な25の象徴から構成される75項目の記述で詩的イメージを追跡し、各記号の出現頻度、感情的トーン、詩中での強さを表現します。

詩全体から学習する仕組み

これら三つの情報はスケールが異なるため、システムはまずそれらを共通空間に写像し、内部のアテンション機構で各詩に対して意味、韻律、イメージにどれほど重みを置くかを決定します。融合された特徴は双方向の再帰ネットワークの二層を通り、詩を前後両方向から読み取って意味の展開をとらえます。さらにマルチヘッドアテンションモジュールがこの表現の最も情報量の多い部分を複数の視点から強調します。最後に全結合層の一連がこの豊かな内部表現を6つの主題に対する確率へと変換し、どの主題が詩に最も合致するかを決定します。

Figure 2. 単一の詩の主題を決定するために、意味、リズム、詩的イメージを段階的に融合するAIモデルの仕組み。
Figure 2. 単一の詩の主題を決定するために、意味、リズム、詩的イメージを段階的に融合するAIモデルの仕組み。

システムの性能

広範な検証により、BA-RILAは現代BERTのみを用いるベンチマークや畳み込みネットワーク、より単純な再帰設計に依存する強力な比較モデルを明確に上回ることが示されました。6主題タスクで新手法は約97パーセントの精度を達成し、出現頻度の低い主題でも安定した性能を示しました。著者らが古典チューニング済みBERT、韻律・イメージ融合、再帰層、アテンションモジュールといった個別構成要素を取り除くと、性能は著しく低下し、各部分が有意に貢献していることが示されました。モデルは唐・宋両時代の詩を処理できましたが、宋詩は韻律がやや不規則で表現が散漫なため、やや難しいと見なされました。

古典文学探索への示唆

非専門家にとっての主要な結論は、語義に音と象徴的イメージを組み合わせることで、コンピュータが古典詩を伝統的な読み方に近い形で主題別に分類できるようになるという点です。詩を単なるテキストとして扱うのではなく、BA-RILAのアプローチはその音楽性と文化的イメージを尊重するため、より信頼できる自動ラベリングが可能になります。こうしたツールは大規模アーカイブの検索を容易にし、王朝を越えた詩人の比較や、思郷や戦争といった主題がどのように変遷したかを研究するのに役立ち、学術研究と古典中国文化の普及の両方を支援するでしょう。

引用: Zhang, X., Liu, Y. Multi-dimensional text feature fusion-based BA-RILA for ancient Chinese poetry theme recognition. Sci Rep 16, 16573 (2026). https://doi.org/10.1038/s41598-026-48986-2

キーワード: 古典漢詩, 主題分類, テキスト特徴融合, 詩的イメージ, 文化的NLP