Clear Sky Science · ja

特徴抽出に基づく視覚知覚ディープラーニング・トランスフォーマーによる絵画と写真の分類

· 一覧に戻る

日常画像にとってなぜ重要か

誰でも数クリックで写実的な画像を作れる時代において、ある画像が実際の写真なのか従来の絵画なのか、あるいは完全にアルゴリズムで作られたものなのかを見分けるのはますます難しくなっています。本研究は、最新の人工知能が人手による絵画をカメラ撮影の写真やAI生成画像と自動的に区別できるかを検証し、美術市場やアーカイブ、オンライン利用者を混乱や偽造から守る手助けになる可能性を探ります。

芸術、写真、そして機械生成画像の台頭

画面上で一見似て見える絵画と写真でも、視覚的な指紋は大きく異なります。絵画は目に見える筆致、様式化された色彩、より抽象的な構図を示す傾向があり、一方で写真はより鋭いディテールや自然なライティングを含むことが多いです。同時に、新しい画像生成器は両者を模倣する技術を高めています。美術館、ギャラリー、収集家、デジタルプラットフォームは、作品の真正性を確認し合成コンテンツの洪水を管理するために、迅速かつ信頼できる判定ツールをますます必要としています。

機械に「見る」ことを教える新しいパイプライン

研究者たちは、もともと言語処理向けに開発され、現在は画像に応用されている最新の深層学習モデルであるビジョントランスフォーマーに基づく完全な画像解析パイプラインを構築しました。彼らはこのシステムを、1,361枚の絵画と3,747枚の写真を含む公開Kaggleデータセットで学習させました。各画像はまず標準化され、リサイズ、軽いトリミングの後、左右反転、小さな回転、明るさの変化、ノイズ除去といったデータ拡張が施され、モデルが現実的なバリエーションを多く経験するようにします。この準備の後、ビジョントランスフォーマーは画像を小さなパッチに分割し、フレーム全体にわたって画像の異なる部分が互いにどう関係するかを学習します。

Figure 1
Figure 1.

モデルが適切な細部に注目する仕組み

局所パターンを主に見る従来のニューラルネットワークとは異なり、ビジョントランスフォーマーは「アテンション」機構を用いて、タスクにとってどの部分が最も重要かを判断します。各パッチについて、ほかの各パッチにどれだけ注意を払うべきかを実質的に問いかけることで、色の流れ、光の当たり方、質感の繰り返し方など、全体構造を捉える能力が向上します。モデルがただ漠然と推測しているわけではないことを検証するために、著者らはGrad-CAMと呼ばれる可視化手法も適用しており、各判定に影響を与えた特定領域を強調表示します。絵画の場合、強調領域は筆致のテクスチャや様式化された部分に落ちる傾向があり、写真では細かなエッジ、現実的な表面、光の遷移付近に集まります。

Figure 2
Figure 2.

従来の画像認識手法を上回る性能

このアプローチが実際に価値をもたらすかを確認するために、研究はビジョントランスフォーマーを標準的な畳み込みニューラルネットワーク(CNN)、VGG-19、DenseNetの3つの広く使われる深層学習アーキテクチャと比較しました。すべてのモデルは同じデータセットで訓練・テストされ、精度(accuracy)、適合率(precision)、再現率(recall)、F1スコアといった一般的な指標で評価されます。ベースラインのネットワークが70%台半ばから80%台半ばの精度に達する一方で、ビジョントランスフォーマーは絵画と写真の双方で95%の精度を達成し、適合率と再現率も同様に高水準でした。著者らはさらに複数の統計検定を実行し、この改善が偶然によるものではなく、反復試行や異なる評価基準において一貫して優れていることを示しています。

美術、信頼、技術にとっての意義

この結果は、現代のトランスフォーマーモデルが絵画と写真を区別し、いずれかの媒体を模倣するAI生成画像を検出するための強力で説明可能なツールになり得ることを示唆しています。非専門家にとっての重要な点は、コンピュータが筆致、滑らかさ、光の勾配といった微妙な手がかりをスケールを持って検出できることで、人間の注意深い観察者でも見落としがちな要素を見つけられるということです。このようなシステムは、ギャラリーや収集家の作品確認、キュレーターやアーカイビストの大規模デジタルコレクションの整理支援、オンラインプラットフォームでの合成コンテンツのラベリングやフィルタリング支援に役立つ可能性があります。画像生成技術が現実と創作の境界をますます曖昧にする中で、本手法のような方法は、我々が目にするものへの信頼を維持する現実的な手段を提供します。

引用: Yu, L. Visual perception based deep learning transformers for classifying paintings and photographs through feature extraction. Sci Rep 16, 5326 (2026). https://doi.org/10.1038/s41598-026-36298-4

キーワード: AI生成画像, 美術品の真正性確認, 画像分類, ビジョントランスフォーマー, デジタルアート解析