Clear Sky Science · ja

ヤシの葉文書のテキスト行分割のためのベンチマークデータセット

· 一覧に戻る

葉に刻まれた物語を守る

ヤシの葉写本は、南アジアと東南アジアに残る生活、科学、宗教、芸術に関する最も古い記録の一つです。これらのもろい葉は現在、色あせ、ひび割れ、経年による劣化で失われつつあり、何世紀にもわたる知識が失われる危険にさらされています。本論文はLeafOCR-Lineという、損傷したヤシの葉上の筆記行をより正確に読み取れるように設計された丁寧なデジタルデータセットを提示します。これにより、この脆弱な遺産を保存し共有する作業が加速されます。

Figure 1
Figure 1.

なぜ古い葉は読みづらいのか

ヤシの葉写本を読むことは、現代の印刷ページをスキャンするほど単純ではありません。筆記はしばしば傾いていたり、狭い空間に詰められていたり、葉を綴じるために伝統的に空けられた穴で断たれていたりします。経年はシミやカビの斑点、裂け、インクの退色を招きます。これらの痕跡は文字に紛らわしく見える一方で、実際の文字の一部が欠けたりほとんど見えなくなったりします。多くの該当文書で使われるマラヤーラム語のような言語では、文字がループや重なりを多く含み、行と行が互いに重なり合うことがあります。各筆記行を特定しようとするコンピュータビジョンシステムにとって、このような乱雑で重なったレイアウトは特に困難です。

物理的な葉からデジタルベンチマークへ

著者らは、デジタル化チェーンの重要な一段階に焦点を当てた、大規模で現実的なベンチマークデータセットを作ることを目指しました:それは各行のテキストを背景や隣接行から分離することです。彼らは公開オンラインコレクションから20束のマラヤーラムのヤシの葉写本を収集し、およそ西暦1000年から1800年頃に書かれた作品を網羅しました。ほぼ3,000ページ分の画像を抽出し、暗い背景を自動で切り抜いた後、葉の領域のみを扱いました。切り抜かれた各葉は大きさが大きく異なり、3行から12行の筆記を含み、1〜2の綴じ穴、不規則な行間、そして異なる作者や時代を反映する多様な筆跡が見られます。

損傷の分類と各行の追跡

損傷の度合いに応じて処理手法が異なるため、各画像は「軽度劣化」「中程度劣化」「高度劣化」の3つの品質レベルのいずれかに割り当てられました。この等級付けは、視認性、コントラスト、物理的状態を分析する既存の客観的評価法に基づいています。LeafOCR-Lineの主な新規性は、筆記行のマーキング方法にあります。行を単純な矩形で囲むのではなく、行の曲がった形状に沿う柔軟なポリゴン輪郭を用いており、行をまたぐ上付きや下付きの文字を切断しにくくしています。

Figure 2
Figure 2.
大学院生がAI支援ツールを使って手作業でこれらの形をトレースし、ループや曲線、重なり、かすれた線を慎重に扱うために点ごとに修正を加えました。マラヤーラム語に堪能な専門家が結果を検査し、ずれや不正確なマスクは修正のために差し戻されました。

データセットの内容

合計で、LeafOCR-Lineは1,710枚のヤシの葉画像を提供し、それぞれに対応するテキスト行を強調したマスク画像が付属します。コレクションは訓練、検証、テストのサブセットに分割され、3つの品質レベルの比率が類似するように配分されています:画像の約半数が中程度に劣化しており、残りはおおむね良好と悪化の間で均等に分かれています。これら1,710枚の葉から、研究者は10,000点を超える個別の行画像を抽出できます。追加ファイルには各画像の損傷レベルと出典写本の要約、元のオンラインリポジトリへのリンクが含まれており、公平な手法比較やさまざまな損傷度に適応するシステム設計が容易になります。

現行アルゴリズムの対応力

データセットが挑戦的で有用であることを示すため、著者らは古典的なエンコーダー–デコーダーネットワークから新しいトランスフォーマーベースの設計まで、幅広い最新の画像分割モデルを訓練・評価しました。各モデルの予測した行領域が人手作成のマスクにどれだけ一致するかを測定しました。すべてのモデルは行の分割を概ねうまくこなしましたが、DeepLabV3と呼ばれるアプローチが特に優れていました。細く曲がった行の捕捉や、深刻に損傷した葉における連続性の維持に秀でており、ただし行が非常に接近している箇所では小さな誤差が残りました。U-NetやLinkNetといった他の人気モデルも強力な性能を示しましたが、最悪ケースではやや一貫性を欠くことがあり、いくつかのトランスフォーマー系やピラミッド型ネットワークは微細なディテールで苦戦しました。

一つの文字体系から多くの文字体系へ、そしてその意義

LeafOCR-Lineはマラヤーラム文字のみを含みますが、その文字の形状やレイアウトはタミル、ティガラリ、グランタといった近隣の文字体系に似ています。著者らは、彼らのデータセットで訓練したモデルがこれら関連文字の行も分割できることを示し、同じデータが複数言語にまたがるより広いデジタル化活動を支えうることを示唆しています。専門外の読者にとっての主なメッセージは明快です:LeafOCR-Lineは、損傷したヤシの葉上の筆記行を「視る」アルゴリズムを構築・評価するための堅牢で公開された基盤を提供します。これにより、アーカイビスト、図書館員、地域コミュニティは、もろく色あせた植物素材の断片を検索可能で共有可能なデジタルアーカイブに変え、将来世代のために文化的記憶を保存する手助けができます。

引用: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

キーワード: ヤシの葉写本, テキスト行分割, 文書デジタル化, マラヤーラム文字, 文化遺産保全