Clear Sky Science · ja

検索拡張型LLMとStable Diffusionによる映画脚本作成の強化とシーンのモデル化

· 一覧に戻る

アイデアを脚本とシーンへ変える

映画やゲームの脚本を書こうとしたことがある人なら、漠然としたアイデアを豊かな会話や鮮明なシーンに仕上げる難しさを知っています。本研究は、新しいAIツールがどのようにして簡潔なプロンプトから完全な脚本、さらには大まかなビジュアルシーンまでを生成するのを支援できるかを探ります。これにより、大きな制作体制がなくても多くの制作者が自分の物語を形にしやすくなる可能性があります。

なぜ脚本制作は支援を必要とするのか

現代の映画、番組、ゲーム、広告はいずれも、誰が何を言い、どこにいて、どう振る舞うかを明確に示す精緻な脚本に依存しています。このレベルの詳細を手作業で作るのは時間がかかり負担が大きく、とくに特定の文化、ムード、ブランドに合わせた内容を求められるとさらに難しくなります。著者らは、この過程の一部を自動化することで新たなストーリーテラーの障壁を下げ、プロットの核心に集中させつつ、反復的な執筆作業や長いシーンにまたがる整合性の管理をコンピュータに任せられるようになると論じています。

テキストにおける記憶と想像力の融合

本研究の中心には、現在の言語モデルの二つの強みを結びつけるパイプラインがあります。まず、検索拡張生成と呼ばれる手法により、システムは大量の実在する映画脚本ライブラリを検索し、ユーザーのプロンプトに似た断片を取り出します。これらの抜粋は参照ノートのように働き、モデルが信頼できる会話や構成に基づく出力を保つのに役立ちます。次に、GPT-2やBloomのような標準的な言語モデルを数千本の脚本でファインチューニングし、自然な会話のパターン、ペーシング、シーンの流れを学習させます。これらを組み合わせることで、創造性を保ちつつユーザーの要求に忠実で、的外れな生成を減らすことを目指しています。

Figure 1. AIが単純なアイデアを映画脚本と対応するビジュアルシーンの両方に変換する仕組み。
Figure 1. AIが単純なアイデアを映画脚本と対応するビジュアルシーンの両方に変換する仕組み。

ページ上の言葉から画面上の画像へ

フレームワークはテキストにとどまりません。チームは脚本生成エンジンをStable Diffusionとして知られる画像生成器に接続し、短いシーン描写をコンセプトアートや絵コンテのような画像に変換します。システムはまずユーザーのクエリをその意味を捉えるコンパクトな数値表現に変換し、次にランダムな視覚ノイズを徐々に変換してシーンに合った鮮明な画像を生成します。これにより、ロケーションやキャラクター、瞬間の見え方を早期に確認でき、全体制作を待たずにテンポ、ムード、カメラ視点を調整しやすくなります。

システムの性能はどの程度か

有用性を評価するため、著者らは入力プロンプトと生成された脚本を二つの一般的な指標で比較しました。コサイン類似度は出力がプロンプトの意味にどれだけ近いかを測り、パープレキシティはテキストの流暢さや予測しやすさを反映します。5,000本の映画脚本データセットでは、Gemini-Proを用いた検索ベースのモデルがユーザープロンプトとの一致度で最も高い結果を示し、書く前に実際の脚本断片を検索することが物語を軌道に留めるのに役立つことを示唆しました。ファインチューニングされたGPT-2とBloomは低いパープレキシティで一貫したテキストを生成しており、言葉遣いや流れは自然に感じられます。画像については、テキストプロンプトとの整合性を測るスコアを用いて評価し、中程度の成功を確認したものの、より鮮明な視覚表現と書かれたシーンとの結びつきを強める余地が明確に残っていました。

Figure 2. 蓄積された脚本がどのようにAIパイプラインを導いて新しいシーンを書かせ、それを画像へ変換するか。
Figure 2. 蓄積された脚本がどのようにAIパイプラインを導いて新しいシーンを書かせ、それを画像へ変換するか。

将来のストーリーテラーにとっての意味

簡潔に言えば、本研究は検索、賢いテキストモデル、画像生成器を組み合わせることで、短いアイデアから脚本と大まかなシーン群を比較的正確に生成できることを示しています。システムは人間の作家に取って代わるものではありませんが、対話文の提案、コンテキストの追跡、視覚スケッチの提示といった迅速なアシスタントとして機能します。ビジュアル面が改善され、モデルがより多様な脚本で訓練されれば、こうしたツールは映画、ゲーム、マーケティング分野の制作者がより自由に実験し、物語を迅速に洗練させ、最初の草稿から共同制作者と明確なビジョンを共有するのに役立つでしょう。

引用: Lulla, A., Koul, A., Agni Mithra, R. et al. Enhancing movie script creation through retrieval-augmented LLMs and stable diffusion scene modeling. Sci Rep 16, 15284 (2026). https://doi.org/10.1038/s41598-026-45852-z

キーワード: 映画脚本生成, 検索拡張生成, 大規模言語モデル, Stable Diffusion, マルチモーダル・ストーリーテリング