Clear Sky Science · ja
M3SFormer: 壁画画像修復のための多段階セマンティック・スタイル融合トランスフォーマー
色あせた壁画に再び命を吹き込む
中国の寺院や洞窟に描かれた古い壁画や掛軸は、顔料の剥離や欠損、場面全体の消失などで徐々に風化しています。保存修復の専門家は、これらの作品を安全に調査し、かつかつての姿を想像するためにデジタルツールをますます利用するようになっています。本論文は M3SFormer を紹介します。これは損傷した壁画や伝統的な絵画を「インペインティング」するために設計された新しい人工知能システムで、欠損領域を元の構造、色彩、芸術的スタイルに忠実に埋めることを目的としています。

古い壁画が修復しにくい理由
歴史的な壁画の修復は、家族写真の小さなキズを補修するよりもはるかに高度な作業です。壁画にはしばしば密なパターン、繊細な筆致、人物・衣服・背景間の急激な色境界が含まれます。従来のディープラーニング手法、とくに標準的な畳み込みニューラルネットワークに基づくものは、小さな傷には有効ですが、大きな欠損がある場合には失敗しがちです。重要な輪郭をぼかしたり、周囲の画面と食い違う形状を創出したり、劇的なコントラストをなめらかにして壁画の特色を損なうことがあります。また別のアプローチでは、画像情報を過度に圧縮してしまい、保存専門家が重視する極めて高周波の細部—細かい亀裂、髪の毛の線、織物の質感—を捨て去ってしまうことがあります。
三段階のデジタル修復パイプライン
M3SFormer は、粗から細への多段階パイプラインでこれらの課題に取り組みます。まず Global Structure Reasoning(大域構造推論)段階で、画像を小さなパッチに分割し、トランスフォーマー(もともと言語モデルとして開発されたモデル)を用いて遠く離れた部分同士の関係を理解します。強い量子化による情報損失を伴わずに長距離のつながりをモデル化することで、この段階は壁画の詳細な大域的設計図を構築します。次に Semantic–Stylistic Consistency(意味論・様式的一貫性)段階では、顔や法衣、背景など意味のある領域に画像を分割し、事前学習済みネットワークを用いて各領域の特徴的な質感や色調を学習するという二つの高レベルガイダンスを導入します。最後に Flow-Guided Refinement(フロー誘導細密化)段階では、修復を徐々に進める過程として扱い、学習された「速度場」を用いて初期推定を複数の小さいステップで視覚的に一貫した最終結果へと押し進めます。

構造と様式を調和させる
本研究の中心的な考えは、コンテンツ(内容)とスタイル(様式)を同時に扱う必要があるが混同してはならない、ということです。モデルのセマンティック成分は Mask2Former として知られる強力なセグメンテーションシステムに基づき、場面の構成要素がどこで始まりどこで終わるかをネットワークに示します。その上でスタイル成分は、複数スケールにわたる特徴パターンの層別比較(Gram 行列を用いた比較)により、復元領域が各セマンティック領域の元の様式にどれほど近いかを測定します。これにより、人物の顔を模様入りの法衣や雲のような空とは別に扱い、局所的な違いを洗い流す一律のスタイル規則を適用することを避けられます。細密化段階では、セマンティックマスクがフロー場のガードレールのように働き、埋められたピクセルが構造と様式の双方と整合する形で変化することを保証します。
手法の実証
M3SFormer が実際の状況でどの程度機能するかを評価するため、著者らは複数地域の中国壁画を含む大規模データセットと、伝統的風景画のデータセットを組み上げました。実際の亀裂や欠落片をモデルにしたマスクで損傷をシミュレーションし、トランスフォーマー系や拡散モデル系を含む最先端の手法7種と比較しました。画像品質、構造類似度、知覚的リアリズムの標準的指標において、特に損傷領域が大きく複雑な場合に M3SFormer は一貫して優れた結果を示しました。視覚的比較では、多くの競合手法で見られるぼけ、奇妙な色斑、ノイズ状の斑点を回避しつつ、現実的な速度で実運用可能であることが示されています。
限界、教訓、将来の可能性
その強みにもかかわらず、M3SFormer は万能薬ではありません。非常に大きな欠損領域や極めて複雑な図様に直面した場合、歴史的事実と食い違う細部を想像してしまうことがあり、これは常に再現の可能性と推測との境界に注意を払わねばならない保存修復者にとって重要な警告です。著者らは将来のバージョンでスケッチや短いテキスト記述のような明示的なプロンプトを取り入れ、モデルの想像力をより確実に制御すべきだと示唆しています。これらの注意点があっても、この手法は博物館や研究者にとって強力な新しいツールキットを提供します。詳細で様式に忠実なデジタル復元を生成し、非侵襲的に「もしも」の修復を試行し、元の顔料が消えた後も壊れやすい文化財を研究・鑑賞できるようにする手段を提供します。
引用: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w
キーワード: デジタル壁画修復, 画像インペインティング, 文化遺産, トランスフォーマーモデル, 美術保存