Clear Sky Science · ja

Prism-OBI: 視覚認知と特徴分離による甲骨文字認識の新しい枠組み

· 一覧に戻る

ひび割れた骨に残る古の手がかり

三千年以上前、古代中国の人々は動物の骨や亀甲に神々への問いを刻み、現存する最古の中国語表記を作り出しました。今日、これらの甲骨文は初期史料の貴重な手がかりですが、大半は風化しひび割れた断片としてしか残らず、専門家であっても判読が極めて難しいものです。本稿は Prism-OBI を紹介します。これは損傷を乗り越え、意味ある筆跡を地質的なノイズから分離し、学術的資料を大規模に解読する支援を行う新しい人工知能システムです。

なぜ古い骨は読みづらいのか

甲骨は長年土中に埋もれ、土圧を受け、気候の変化で濡れたり乾いたりし、発掘時に割れることもありました。文字は薄くなり、断裂していたり失われていたりすることが多く、骨表面には刻線と紛らわしい亀裂や汚れが多数存在します。従来の手法は、専門家が一字ずつ目視で慎重に比較するか、現代の印刷文字向けに作られた標準的な文字認識ソフトに頼るかのどちらかでした。いずれも、文字が亀裂で分断されていたり部分的に侵食されていたり、書き手や時代によってわずかに形が異なる場合にはうまく機能しません。その結果、多くの資料が十分に活用されず、どの文字が何であるかを特定するという単純な課題のために事実上封印されたままになっています。

損傷を見抜くようコンピュータを訓練する

Prism-OBI は認識工程を一つの巨大なエンドツーエンドモデルに任せるのではなく、慎重に調整された二段階で処理することでこの問題に対処します。第一段階では、システムは拓本上で文字が「どこにあるか」だけに注目し、その意味は問いません。AIが画像を見る前に、まず二段階のクリーンアップ処理でコントラストを高め、斑点状のスキャナノイズを除去して筆跡を明瞭にします。クリーン化された拓本は、速度に優れた物体検出ネットワークを基に改良された“劣化認識(degradation-aware)”な検出器に渡されます。検出器は大まかな形状と細部を分離し、筆画らしきパターンを強調し、ランダムな亀裂を抑え、複数スケールにわたる情報を統合して小さな文字も大きな文字も確実に検出します。この段階の出力は、疑わしい各文字領域を囲む厳密なバウンディングボックスの集合です。

Figure 1
Figure 1.

切り出した符号から文字を認識するまで

第二段階では、切り出された各文字パッチを標準的な正方形にリサイズし、広く使われるビジョンモデルを改良した深層ニューラルネットワーク分類器に投入します。この分類器は、306カテゴリに分類された30万点超の甲骨文字を含む OBC306 データセットの中で、微妙に異なる数百の記号を判別することを専門にしています。検出器が既に文字のクリーンアップと分離を行っているため、分類器は背景ノイズと戦う必要がなく、鉤形、切れ目、交差点など筆画形状や配置の細かな違いに集中できます。実験では、焦点を絞った検出器と強力な分類器の組み合わせが、単純な単一段階システムよりも高い認識精度を示しつつ、ラップトップGPU上でほぼリアルタイムな速度を維持することが示されました。

Figure 2
Figure 2.

新しい検出器の内部を覗く

Prism-OBI の検出器は、劣化の激しい資料に対処するためにいくつかの専用モジュールを採用しています。あるモジュールは視覚信号を低周波成分(大まかな輪郭)と高周波成分(鋭いエッジ)に分割し、大きな形状と繊細な筆先を別々に扱えるようにしてから注意機構を適用し、ランダムな亀裂よりも一貫した筆画パターンを強調します。別のモジュールは異なるスケールのビューでピラミッドを構築し、それぞれをどれだけ信頼するかを学習することで、小さな文字と大きな文字の検出をノイズに影響されず改善します。第三のモジュールは単に特徴を積み重ねるのではなく、異なるネットワーク層からの特徴を重み付けして統合することを学び、有益な信号を保持しつつ信頼できない信号を抑えます。最後に、検出ヘッドは水平・垂直位置を明示的に符号化しており、隣接する文字が混ざり合いやすい密集した配置でも位置関係を保つのに重要です。

文化遺産にもたらす意義

標準的な甲骨検出データセット上で、改良検出器はベースラインモデルと比べてバウンディングボックスの精度、再現率、全体品質を大幅に向上させ、見落としや亀裂による誤検出の双方を減少させました。分類器と組み合わせた完全な Prism-OBI フレームワークは、ラップトップGPUでおよそ1秒間に32枚程度の画像を処理しつつ高い文字認識性能を達成します。初期の定性的評価では、再学習なしでも同じ検出器が銅器銘文や篆書など他の古代文字において有意に文字位置を特定できることも示されており、最良の結果を得るには微調整が有効です。非専門家向けの主要な結論は、Prism-OBI が大きく損傷した古文書を自動で読み取り可能にする実用的で拡張性のある道筋を示すことです。「文字はどこにあるか」を「それが何と言っているか」から明確に分離することで、乱れたひび割れた骨面を構造化された検索可能なテキストに変換し、歴史学者や考古学者が人類最古の書記資料をこれまでより速く、より徹底的に探査できるよう支援します。

引用: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

キーワード: 甲骨文, 古代文字認識, 深層学習, 文化遺産のデジタル化, コンピュータビジョン