Clear Sky Science · ja

刺繍財布模様の知能的認識:YOLOシリーズとRT‑DETRの比較

· 一覧に戻る

なぜ古い刺繍財布が今なお重要なのか

中国各地で、小さな刺繍財布はかつて薬草やお守り、幸福を願う思いを入れるために使われていました。今日では多くが博物館の引き出しや個人収集にしか残っていません。小さく縫い込まれた花や龍の一針一針が、信仰や服飾、日常生活に関する物語を伝えます。しかし、これら装飾豊かな品を手作業でデジタル化・分類するのは非常に時間のかかる作業です。本研究は、現代の人工知能を用いてこれらの財布に施された模様を自動認識する方法を探り、博物館やコミュニティが重要な無形文化遺産をデジタル時代に保存する手助けをすることを目指しています。

Figure 1
Figure 1.

人の目と手からスマートな認識へ

従来は専門家が写真を詳しく観察し、文献を参照して財布のデザインを識別してきましたが、その方法では散在する数万点規模の資料には対応できません。研究チームは代わりに、書籍や主要な博物館のデジタルアーカイブから783点の刺繍財布の画像を集めた専門の画像コレクションを作成しました。植物・花、鳥獣、昆虫・水生生物、風景・建物、記号・文字、人物・物語、工芸品・古物、幾何学模様という8つの共通モチーフカテゴリを定義し、各画像の模様に丁寧にバウンディングボックスを描きました。データセットが小さい問題に対処するため、画像を左右反転、回転、明度調整、ぼかしなどで増やし、学習データを4倍以上に拡張しつつ、ラベルはソフトウェアと文化遺産の専門家の双方で検証しました。

一般的なAIツールを試す

この精選されたデータセットを用いて、研究者は2つの物体検出システム群を比較しました。一方はYOLOとして知られる系統で、歩行者や車を素早く検出する用途によく使われます。これらのモデルは画像を一度に処理し、局所的な領域に大きく依存します。もう一方はRT‑DETRと呼ばれるやや新しい設計で、従来の畳み込みフィルタとトランスフォーマー式のアテンションを組み合わせ、小さな縫い目と全体の文脈を結び付けられる点が特徴です。研究者らはまず複数のYOLO変種を調整し、強力なベースラインとしてYOLOv5mを選びました。YOLOv5mは「人物・物語」カテゴリのような複雑な物語的シーンで比較的良好に機能しましたが、模様が小さい、重なりが激しい、背景に溶け込んでいる場合には苦戦しました。そのようなケースでは花が見落とされたり、幾何学的な縁取りが誤認されたり、画像の一部が空背景として誤ラベルされることがありました。

ハイブリッドなトランスフォーマーが縫い目を見る方法

次に研究者はこの特殊な視覚課題に対してRT‑DETRの改良に注力しました。標準的なバックボーンを、細かなテクスチャを捉えつつ全体像も把握できる最新の畳み込みネットワークであるConvNeXt‑Largeに置き換えました。また、簡単な例に依存するのではなく、区別の難しい例により注意を向けさせる学習戦略であるFocal Lossを採用しました。RT‑DETR内部では、財布画像から複数スケールで特徴を抽出して融合し、アテンション機構が離れたが関連する領域、たとえば対をなす動物や繰り返す縁取りなどを結び付けます。アブレーション研究や学習スケジュール、正則化の逐次調整を慎重に行うことで、複数回の学習で精度と安定性のバランスが取れた最適化構成に到達しました。

Figure 2
Figure 2.

改良システムが実際に達成したこと

標準的な物体検出指標で評価すると、改良版RT‑DETRはYOLOモデル群を明確に上回りました。主要な精度指標であるmAP@0.5は0.5433に達し、YOLOv5mのベースラインに比べ約33%の改善を示しました。統計的に見てもこの改善は偶然によるものとは考えにくいとされています。特に物語性のある複雑なシーン(「人物・物語」)で優れ、平均適合率は0.833に達しました。また、YOLOが見落としていた多くのモチーフを回復し、風景や幾何学的縁取りのような稀少または過少表現のカテゴリで効果を発揮しました。再現実験においても一貫性が高く、単一の訓練‑試験分割に過度に適合する脆弱さが少ないことを示しました。トレードオフはモデルサイズです:最高のRT‑DETRモデルはYOLO系よりはるかに大きく重く、軽量デバイスへの展開が制限される可能性があります。

文化遺産にとっての意義

非専門家にとっての主要なメッセージは、コンピュータが単に車や顔を見つけるだけでなく、伝統工芸の言語を読み取ることを学びつつあるという点です。トランスフォーマーを基盤にした検出器を注意深く適応・学習させることで、密で重なり合う刺繍モチーフをリアルタイム志向の一般的モデルよりも正確に抽出できることを示し、本研究は将来のツールに対するベンチマークを確立しました。博物館や文化機関はやがて、モチーフによる写真コレクションの検索、特定の記号の変遷の追跡、職人による古いデザインの復興支援にこうしたシステムを利用できる可能性があります。著者らは、性能はまだ中程度であり、軽量モデルや文化的知識やテキスト記述の追加などさらなる改良が大規模展開の前に必要であることを強調しています。それでも、本研究は刺繍財布の遺産を知的かつ敬意を払ってデジタルで管理する方向への重要な一歩を示しています。

引用: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

キーワード: 刺繍模様認識, 無形文化遺産, 物体検出, トランスフォーマー型ビジョン, デジタル保存