Clear Sky Science · ja

低資源イー文字検出とデータセット構築のための細粒度表現学習

2026-03-26 · 一覧に戻る

壊れやすい書き遺産を守る

中国南西部のイー（Yi）民族は何世紀にもわたり独自の文字で医学、天文学、宗教、日常生活を記録してきました。しかし多くの写本は色あせ、染み、損傷しており、文字自体も視覚的に複雑です。何十万もの文字を手作業で転写するのは時間と費用がかかります。本論文は、古い文書のデジタル画像からイー文字を検出・分離することに特化した新しいコンピュータビジョンシステムを提案し、この危機に瀕した書き遺産の大規模なデジタル化と保存の基盤を築きます。

なぜこの文字はコンピュータにとって難しいのか

馴染み深いラテン文字や現代の活字中国語とは異なり、イー文字は密な曲線状の筆致で構成され、しばしば互いに絡み合います。非常に似通った文字が多く、同一の文字でも時代や写本によって形がわずかに異なります。歴史的なページは密な多段組や不規則な空白、重なり合う筆致を含むことが多い。さらにインクの退色、紙面の反り、斑点状の背景などが加わります。従来の検出法は間隔に関する固定的なルールや汎用の文字検出モデルに依存するため、隣接する文字を結合してしまったり、かすれた筆致を見落としたり、背景ノイズを文字と誤認したりしがちです。著者らはイー写本が文字検出における「最悪のケース」の一種であり、これを解決できれば他の低資源文字にも役立つと論じています。

細部を捉える新たな視点

これらの課題に対処するため、研究者らはFGRL-YiNet（Yiのための細粒度表現学習ネットワーク）という専用のニューラルネットワークを設計しました。本質的には標準的な畳み込み層への工夫であり、現代の画像認識の基礎です。全域で一つの固定フィルタを使う代わりに、FGRL-YiNetは動的畳み込みを採用します：複数の候補フィルタが並列に動作し、画像の各領域ごとにどのフィルタにどれだけ依存するかを小さなゲーティングモジュールが決定します。これにより、局所的な筆致パターンに応じて受容野を微妙に調整でき、雑多な背景や紙面の損傷に惑わされずに微細な曲線や接合部をよりよく捉えられます。ResNet-18のコンパクトなバックボーン上に構築され、注釈付きイーデータが比較的少ない状況でも効果的に学習できるようモデルサイズは意図的に抑えられています。

スケールの統合とページのクリーンアップ

写本全ページで文字を検出するには、単一の筆致の小さな揺らぎから列全体のレイアウトまで、複数のスケールでのパターン把握が必要です。FGRL-YiNetはこれを解決するためにAdaptive Multi-Scale Fusion（AMSF）モジュールを導入します。ネットワークはまず複数解像度で特徴を抽出し、続いてジョイント注意機構を用いて各位置でどのスケールとどのチャネルが重要かを決定します。注意機構の一部は「どこで」細部が重要かに焦点を合わせ、別の部分は「何が」有用な特徴か（例えば特定の筆幅や文字内の小さな輪）に注目します。並行して、微分可能な二値化ヘッドが確率マップと局所的に変化する閾値を予測することでインクと背景を分離することを学びます。この工程がネットワークに組み込まれ終端まで学習されるため、従来の白黒変換で消えてしまうかすれた筆致を保持しつつ、斑点や染みを抑制できます。

希少文字のためのベンチマーク構築

専門的な文字に共通する大きな障害はデータです：高品質にデジタル化されたイー写本は少なく、各文字に精密なラベルが付いたものはさらに稀です。チームは梁山（Liangshan）イーの古典からYiPrint-694データセットを構築し、694ページ画像にわたり約347,000のラベル付き文字と1,165カテゴリの文字を収めました。ノイズ低減、エッジ強調、二値化といった慎重な前処理を、半自動のセグメンテーションパイプラインとイー語の専門家による入念な手作業チェックと組み合わせています。古い変色したページの見た目を模倣するため、黄変や褐色の背景を持つ追加画像も生成しました。この精選されたコレクションはFGRL-YiNetの訓練基盤となると同時に、将来のイー文字や関連する文字研究のための公開ベンチマークとなります。

システムの性能

一般的に広く使われるFaster R-CNN、DBNet++、PSENetなどを含む最先端の文字検出器群と比較試験した結果、FGRL-YiNetはYiPrint-694上で総合的に最良のスコアを達成しました。Fスコアは94.7%と高く、非常に高い精度（98.4%）と強い再現率（91.3%）に支えられており、背景を文字と誤認することは稀でありながらページ上のほとんどの文字を検出しています。個々の構成要素を取り除くアブレーション実験により、動的畳み込み、適応的マルチスケール融合、微分可能な二値化のそれぞれが測定可能な改善に寄与し、これらは協調して最良の効果を発揮することが示されました。モデルは歴史的な中国仏教文献の大規模データセットMTHv2にも良好に転移し、汎用検出器と競合する性能を示しており、その汎用性も示唆しています。

文化保存への意義

非専門家にとっての中心メッセージは、限定的な訓練データしかない場合でも、慎重で目的に合った設計によりコンピュータが世界で最も困難な文字のいくつかを読み取れるようになるということです。適応的フィルタ、賢いマルチスケール融合、そして劣化したページの自動的なクリーンアップを組み合わせることで、FGRL-YiNetは混雑し損傷した写本中の個々のイー文字を確実に特定できます。これにより、検索可能なデジタルアーカイブの構築、言語学や歴史研究の支援、イー民族の書き遺産の保護が格段に容易になります。著者らは自らのアーキテクチャとデータセットを、世界中の他のサービスが行き届かない文字に取り組むための設計図と見なし、人工知能の進歩が将来世代のために壊れやすい文化遺産を保存する上で直接的な役割を果たし得ることを示しています。

引用: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

キーワード: イー文字, 歴史的写本, 文字検出, デジタル遺産, ディープラーニング