Clear Sky Science · ja
累進スタッキング擬似逆行列学習による古建築画像分類
なぜ古い建物が現代のアルゴリズムと出会うのか
中国各地で、屋根の反りや精緻な木製持ち送りを備えた寺院や宮殿が大量に撮影されています。アーカイビストや保存担当者はこれらの画像を迅速に分類する必要がありますが、目視での作業は遅く主観的になりがちです。本論文は、コンピュータに古建築の写真をより正確かつ効率的に認識・分類させる新たな手法を示し、デジタル時代の文化遺産保護を支援します。

これらの建物が判別しにくい理由
中国古建築には反復する要素が豊富にあります:曲線を描く屋根線、軒下の重なる持ち送り群、彫刻された梁、そして色彩豊かな表面装飾。多くの建物は似たレイアウトを共有し、屋根の曲線や持ち送りの形状といったわずかな差異でしか区別できないことがあります。内部の重みを徐々に調整して学習する標準的な画像認識システムは、こうした微細な差や壁の色や照明といった雑音に惑わされやすい。また、大量の画像を一括して学習させると、特定の地域や様式に過度に適合しやすく、他のサイトの建物へ一般化する能力が低下します。
主要なディテールを賢く見る方法
著者らは、累進スタッキング擬似逆行列学習(Ancient Architecture Image Classification with Progressive Stacking Pseudoinverse Learning; AAPSP)という枠組みを提案します。その中核には、鍵となる特徴を積み重ねる擬似逆学習(Key Features Stacking Pseudoinverse Learning; KFSP)というモジュールがあります。完全にランダムな初期設定から始める代わりに、KFSPは複数の並列“基礎学習器”を構築し、それぞれ特定の視覚的特性に合わせた重みパターンで初期化します。2つのブランチは屋根の輪郭のような滑らかで連続的な構造に感度を高めるよう調整され、3つ目のブランチは装飾的なモチーフのような散在するテクスチャを捉えるよう設計されています。擬似逆演算という数学的な近道により、これらのブランチは実質的に一度の処理で学習でき、従来の深層学習における遅い逐次的な重み更新を回避します。
重要な箇所にモデルの注意を向ける
複数のブランチを用意するだけでは不十分であり、どのブランチが各判断に最も有益かを決める必要があります。そのため、KFSPは各ブランチの出力が真の建物ラベルとどれだけ一致しているかを測る注意機構を用います。天井アーチの形状や棟飾りの輪郭といった決め手をうまく捉えるブランチは、出力を統合する際に自動的により大きな影響力を与えられます。このスタッキングされた表現は、古建築における「形の論理」により忠実な特徴空間を形成し、構造要素が類似する建物は集まり、異なる様式のものはより明確に分離されます。

最も情報量の多い写真から学ぶ
第二のコアモジュールである累進最適化学習(Progressive Optimization Learning; POL)は、冗長な学習画像という別の問題に取り組みます。データセットには同一の正面をほぼ同じ視点で撮影した写真が多く含まれ、新しい情報がほとんど提供されないことがあります。POLはデータを初期の訓練セットとより大きな候補プールに分けるところから始めます。アクティブラーニングの考え方を用いて、現在のモデルが各候補画像をどれだけ自信を持って分類しているかと、その特徴がどれだけ珍しいかを分析します。分類が不確かで特徴が際立っている写真、たとえば稀な持ち送りの配置や珍しい屋根の組み合わせなどは、段階的に訓練セットへ移されます。このサイクルを繰り返すことで、使用する画像数を増やすことなく、困難で多様な例によって訓練データが徐々に充実していきます。
実際の性能はどれほどか
著者らは、6つの著名な寺院と宮殿からなる公開コレクション(2,269枚の画像)で手法を検証しました。KFSPのみを適用した時点ですでに、完全にランダムな射影に依存する比較手法を上回っていました。さらにPOLによる段階的なサンプル選択を追加すると、分類精度はさらに向上し、精度(precision)、再現率(recall)、F1スコアのいずれも上昇しました。つまり、モデルは正解を出す信頼性が高まり、より稀なカテゴリを見つける能力も向上したということです。研究はまた残る課題も指摘しています:画像数が極めて少ないクラスは依然として難しく、学習する多様性が不足すると高度な学習器でも苦戦します。
文化遺産にとっての意義
モデルが注目すべき点と学習すべき画像を慎重に制御することで、AAPSPは史的建築の写真を分類・研究するためのより精密な道具を提供します。遺産専門家にとっては、デジタルアーカイブの迅速な作成、建築様式の年代推定や比較の支援、地域ごとに散在する遺跡のより堅牢な監視が可能になることを意味します。本手法は中国古建築に特化して設計されていますが、主要な考え方—重要な構造的細部を強調し、稀だが情報量の多い例に段階的に焦点を当てる—は彫刻や歴史的街並みなど、他の種類の文化財にも応用できるでしょう。
引用: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9
キーワード: 古建築, 画像分類, 文化遺産, 機械学習, アクティブラーニング