Clear Sky Science · ja

米国市場のAmazon X-RayとIMDbを組み合わせたシーン単位の映画データ

· 一覧に戻る

文化を理解する上で映画のシーンが重要な理由

映画は私たちの世界の見え方を形作りますが、映画研究の多くは興行成績、基本的なジャンル、スターの影響といった指標に集中しており、シーンごとに画面上で何が実際に展開しているかに注目することは少数派です。この記事は、米国のAmazon Prime Videoで配信されている3000本以上の映画について、個々のシーン、登場人物、台詞のレベルにズームインできる新しいデータセットを紹介します。AmazonのX-Ray機能とインターネット・ムービー・データベース(IMDb)を組み合わせることで、各映画において誰がいつどこに現れるかを詳しく標準化した地図を提供し、表象や物語、さらには映像から学習する人工知能システムの研究を豊かにする道を開きます。

Figure 1
Figure 1.

草稿のスクリプトから完成したシーンへ

これまでの大規模な映画研究の多くは脚本や字幕ファイルに依存してきました。これらの情報源は有用ですが完璧ではありません。脚本は最終版と異なる初期草稿であることが多く、端役や編集の後の変更を省略することがあります。字幕は話された台詞を捉えますが、無音の登場人物や背景のエキストラ、純粋に視覚的な物語(例えばカメラが登場人物の顔に留まる場面)を見落とします。こうした欠落のため、画面上で誰が誰と関わっているか、あるいはどの集団がどのように表象されているかをテキストだけで推定しようとすると、登場人物の特定や関係性の誤りにつながることがありました。

X-Rayを研究利用可能なデータに変える

AmazonのX-Ray機能は、これらの問題を回避する手段を提供します。視聴者が一時停止すると、X-Rayはその時点で画面に映っている俳優やキャラクターを表示し、これは最終編集版に直接紐づけられたキュレーション情報です。著者らはこのシーン単位データを、2023年8月時点で米国のPrime Videoカタログにある3,265本の映画について収集するパイプラインを構築しました。まずPrimeに含まれる映画エントリをすべて収集し、X-Ray情報のないものを除外し、重複するタイトルや別バージョンによる重複を削除しました。残った各作品について、プレーヤーがX-Rayや字幕情報を読み込む際のデータストリームを傍受し、シーン境界、各シーンに登場するキャラクターの一覧、および多くの作品で各字幕セグメントの正確なタイミングを列挙した構造化ファイルに保存しました。

シーンをより広い映画世界とつなぐ

このデータセットの真の力は、これらのシーン分解を外部情報と結びつける点にあります。X-Rayは各キャラクターをIMDbのプロファイルにリンクしていますが、映画そのものに対するIMDb IDは含んでいません。著者らは映画タイトルから始めてIMDbから複数の候補を取得し、IMDbのトップ・ビルド・キャスト(主要出演者)とX-Rayデータに記載された俳優を比較するマッチングアルゴリズムを設計しました。主要な俳優が少なくとも1名重なればその映画を一致とみなします。この自動化プロセスは大多数の映画を正しく照合し、残る数百件の微妙なケースについては手作業で検査して誤分類を修正し、スタンドアップ・スペシャルのような物語作品でないエントリを除外しました。最終的に、各シーン、キャラクター、字幕が年、国、キャストの人口統計など豊富なメタデータに結びつく、慎重にクリーンアップされた映画群が得られました。

Figure 2
Figure 2.

研究者がこれらの映画でできること

すべてのシーンに明確な開始・終了時刻と登場者一覧があるため、研究者は登場人物の相互作用やスクリーンタイムの精密な地図を構築できます。シーンと整列した字幕により、登場人物や文脈によって言語がどのように異なるか、あるいは特定のテーマが対話を通じてどのように展開されるかを分析することが可能になります。このデータセットをIMDbや他の情報源と組み合わせることで、たとえばスクリーン上のジェンダーバランスは数十年でどのように変化したか、異なる背景を持つ登場人物は物語上の扱いが均等か、ジャンルや国別で相互作用のパターンはどう異なるかといった問いを検証できます。また、誰がいつ画面に映っているかというグラウンドトゥルースを提供するため、映像コンテンツを理解しようとする人工知能モデルにとって高品質なベンチマークにもなります。

日常的な映画に対する新たな視点

平たく言えば、この研究は何千本もの映画を検索可能な、シーンごとのカタログとして変換し、誰が現れ、誰が話し、物語がどのように構成されているかを明らかにします。コレクションは米国のPrime Videoで視聴可能なタイトルに限定され、Amazonの内部X-Rayプロセスに依存するものの、有名な受賞作だけでなく多くの年代やジャンルにわたる映画をカバーしています。この幅広さにより、研究者は記憶に残る古典だけでなく日常的な映画を研究対象にできるのです。データセットが更新・拡張されるにつれて、映画が社会をどのように反映しているかの理解が深まり、社会科学者や技術者の双方に、画面上で実際に何が起きているかをより忠実に示す資料を提供することが期待されます。

引用: Shrestha, S., Heo, Y., Barron, A.T.J. et al. Scene-level movie data from Amazon X-Ray in the US market combined with IMDb. Sci Data 13, 275 (2026). https://doi.org/10.1038/s41597-026-06602-y

キーワード: 映画データセット, シーンレベルの分析, Amazon X-Ray, IMDbメタデータ, 画面上の表象