Clear Sky Science · he

שיפור יצירת תסריטים קולנועיים באמצעות מודלים שפתיים מועשרים באחזור ודיפוזיה יציבה למידול סצנות

· חזרה לאינדקס

הפיכת רעיונות לתסריטים ולסצנות

כל מי שניסה לכתוב תסריט לסרט או למשחק יודע כמה קשה להפוך רעיון פרוץ לדיאלוג עשיר וסצנות חיות. המחקר הזה בוחן כיצד כלים חדשים של בינה מלאכותית יכולים לסייע לאנשים לעבור מפרומפט כתוב פשוט לתסריט מלא ואפילו לסצנות ויזואליות בסיסיות, מה שמקל על יוצרי תוכן להביא את סיפוריהם לחיים בלי צורך באולפן גדול מאחוריהם.

למה כתיבת תסריטים זקוקה לדחיפה

סרטים מודרניים, סדרות, משחקים ופרסומות מסתמכים על תסריטים מעוצבים בקפידה שמפרטים מי אומר מה, היכן הם ואיך הם מתנהגים. יצירת רמת פירוט כזו באופן ידני איטית ותובענית, במיוחד כשהמפיקים רוצים תוכן המותאם לתרבויות, מצבים או מותגים ספציפיים. החוקרים טוענים שאוטומציה של חלקים בתהליך הזה יכולה להנמיך את מחסום הכניסה לסופרי סיפור חדשים, ולאפשר להם להתמקד בליבת העלילה בעוד המחשבים מטפלים במשימות כתיבה חזרתיות ושומרים על עקביות לאורך סצנות ארוכות.

שילוב זיכרון ודמיון בטקסט

במרכז העבודה עומד צינור שמאחד שתי חוזקות של מודלים שפתיים עכשוויים. ראשית, טכניקה הנקראת הולדה מועשרת באחזור מאפשרת למערכת לחפש בספרייה גדולה של תסריטים אמיתיים ולהוציא קטעים שמדמים את הפרומפט של המשתמש. הקטעים האלה משמשים כפנקסי התייחסות, ועוזרים למודל להישאר מושרש בדיאלוג ומבנה אמינים. שנית, מודלים סטנדרטיים כגון GPT-2 ו־Bloom מותאמים בעדכון על אלפי תסריטים כדי ללמוד דפוסים של שיחה טבעית, קצב וזרימת סצנות. יחד, השילוב שואף לשמור על התוצר גם יצירתי וגם נאמן לבקשת המשתמש, תוך הפחתת תוכן מומצא או יוצא מהנושא.

Figure 1. כיצד בינה מלאכותית הופכת רעיון פשוט גם לתסריט קולנועי וגם לסצנות ויזואליות תואמות.
Figure 1. כיצד בינה מלאכותית הופכת רעיון פשוט גם לתסריט קולנועי וגם לסצנות ויזואליות תואמות.

מילים על הדף לתמונות על המסך

המסגרת לא נעצרת בטקסט. הצוות מחבר את מנוע התסריטים שלו למייצר תמונות הידוע כ־Stable Diffusion, שיכול להפוך תיאורי סצנה קצרים לאמנות קונספט כמו סטוריבורדים. המערכת קודם כל ממירה שאילתת משתמש לצורה מספרית מקוצרת שתופסת את משמעותה, ואז בהדרגה ממירה רעש חזותי אקראי לתמונה ברורה התואמת את הסצנה. זה מעניק לסופרים ובמאים דרך מהירה לראות כיצד מקום, דמות או רגע עשויים להיראות, מה שמקל על התאמת קצב, מצב רוח ונקודות מצלמה מוקדם בתהליך במקום להמתין לייצור מלא.

כמה טוב המערכת מתפקדת

כדי להעריך עד כמה המערכת מועילה, המחברים משווים בין הפרומפטים שניתנו לתסריטים שיוצרו באמצעות שתי מדדים מקובלים. דמיון קוסינוס בודק עד כמה משמעות התוצר קרובה לפרומפט, בעוד פלפלקסיטי משקפת עד כמה הטקסט קולח וניתן לחיזוי. במערך הנתונים שלהם של 5,000 תסריטים קולנועיים, המודל המבוסס אחזור שמשתמש ב־Gemini-Pro מראה התאמה החזקה ביותר לפרומפטים של המשתמשים, מה שמרמז שחיפוש קטעי תסריט אמיתיים לפני הכתיבה עוזר לשמור על מסלול הסיפור. GPT-2 ו־Bloom המותאמים מייצרים טקסט קוהרנטי עם פלפלקסיטי נמוכה, כלומר הניסוח והזרימה מרגישים טבעיים. עבור תמונות, הצוות משתמש בסולם הבודק עד כמה התמונות מיושרות עם פרומפטים טקסטואליים, ומוצא הצלחה מתונה וחלל ברור לשיפור בפרטים חזותיים חדים יותר וקשר הדוק יותר לסצנות הכתובות.

Figure 2. כיצד תסריטים מאוחסנים מנחים צינור בינה מלאכותית הכתב סצנות חדשות ואז ממירים אותן לתמונות.
Figure 2. כיצד תסריטים מאוחסנים מנחים צינור בינה מלאכותית הכתב סצנות חדשות ואז ממירים אותן לתמונות.

מה זה אומר לסופרי סיפור בעתיד

במלים פשוטות, המחקר מראה ששילוב של חיפוש, מודלים טקסט חכמים ומייצרי תמונות יכול להפוך רעיון קצר גם לתסריט וגם למערך סצנות ראשוני בדיוק סביר. המערכת אינה מחליפה כותבים אנושיים, אך יכולה לשמש כעוזר מהיר שמציע דיאלוג, עוקב אחרי הקשר ומספק סקיצות ויזואליות. ככל שהצד הוויזואלי ישתפר והמודלים יאמנו על תסריטים מגוונים יותר, כלים כאלה עשויים לסייע ליוצרים בתחומי הקולנוע, המשחקים והשיווק להתנסות בחופשיות רבה יותר, לחדד את סיפוריהם מהר יותר ולשתף חזון סיפורי ברור עם שותפים כבר מהטיוטה הראשונה.

ציטוט: Lulla, A., Koul, A., Agni Mithra, R. et al. Enhancing movie script creation through retrieval-augmented LLMs and stable diffusion scene modeling. Sci Rep 16, 15284 (2026). https://doi.org/10.1038/s41598-026-45852-z

מילות מפתח: יצירת תסריט קולנועי, הולדה מועשרת באחזור, מודלים שפתיים גדולים, דיפוזיה יציבה, סיפור רב־מודאלי