Clear Sky Science · he
נתוני סרטים ברמת הסצנה מ‑Amazon X‑Ray בשוק האמריקאי בשילוב עם IMDb
מדוע סצנות סרט חשובות להבנת התרבות
סרטים מעצבים את האופן שבו אנחנו רואים את העולם, ובכל זאת רוב המחקר הקולנועי התמקד במספרי קופות, בז׳אנרים בסיסיים או בכוח המשיכה של כוכבים, ולא במה שמתרחש בפועל על המסך מסצנה לסצנה. מאמר זה מציג מאגר נתונים חדש שמאפשר לחוקרים להתמקד ברמת הסצנה היחידה, הדמויות ושורות הדיאלוג ביותר מ‑שלושת אלפים סרטים ששודרו בארצות הברית ב‑Amazon Prime Video. באמצעות שילוב תכונת X‑Ray של אמזון עם מסד הנתונים של Internet Movie Database (IMDb), הכותבים מציעים מפת נתונים מפורטת ומאוחדת של מי מופיע היכן ומתי בכל סרט, מה שפותח אפשרויות לחקר ייצוגים, סיפור סיפורים ואף מערכות בינה מלאכותית הלומדות מתוך וידאו.

מתסריטים גולמיים לסצנות גמורות
עד כה, רוב המחקרים בקנה מידה גדול על סרטים נשענו על תסריטים או על קבצי כתוביות. מקורות אלה מסייעים אך אינם מושלמים. תסריטים הם לעתים טיוטות מוקדמות השונות מהגירסה הסופית, ועלולים להשמיט דמויות משניות או שינויים שנעשו בעריכה מאוחרת. כתוביות תופסות שורות דיבור אך מפספסות דמויות אילמות, שחקני רקע וסיפורי חזותיים טהורים — למשל המצלמה שמעצבת מבט על פני דמות. בגלל הפערים האלה, מאמצים קודמים לעקוב מי מתקשר עם מי על המסך, או כיצד קבוצות שונות מיוצגות, נאלצו להסיק מסקנות מטקסט בלבד, מה שעלול להוביל לשגיאות בזיהוי דמויות ויחסים ביניהן.
הפיכת X‑Ray לנתונים מוכנים למחקר
תכונת X‑Ray של אמזון מציעה דרך לעקוף בעיות אלה. כשצופים עוצרים סרט, X‑Ray מראה אילו שחקנים ודמויות נמצאים כעת על המסך — מידע שמטופל בקפידה וקושר ישירות לגירסה הערוכה הסופית של הסרט. הכותבים בנו צינור עיבוד שאסף נתונים ברמת הסצנה עבור 3,265 סרטים שזמינים בקטלוג Prime Video בארה"ב נכון לאוגוסט 2023. הם קודם כל אספו את כל הכניסות של סרטים הכלולים ב‑Prime, סיננו את אלה שאין להן מידע X‑Ray, והסירו כפילויות שנוצרו על ידי כותרות חוזרות או גרסאות חלופיות. לכל סרט שנשאר, הם יצרו אינטרספט של זרמי הנתונים שבהם הנגן טוען את המידע של X‑Ray והכתוביות, ושמרו את התוצאות לקבצים מובנים שמפרטים גבולות סצנות, הדמויות שנמצאות בכל סצנה, ולרוב הכותרים — תזמון מדויק של כל מקטע כתוביות.
קישור הסצנות לעולם הקולנוע הרחב יותר
העוצמה האמיתית של מאגר הנתונים נובעת מקישור חלוקות הסצנות למידע חיצוני. אף על פי ש‑X‑Ray כבר מקשר כל דמות לפרופיל ב‑IMDb, הוא אינו כולל מזהה IMDb עבור הסרט עצמו. המחברים עיצבו אלגוריתם התאמה שמתחיל בכותרת הסרט, שולף מספר מועמדים מ‑IMDb ואז משווה את צוות השחקנים המוביל ב‑IMDb עם השחקנים המופיעים בנתוני X‑Ray. אם לפחות שחקן מרכזי מוצא חפיפה, הסרט נחשב להתאמה. תהליך זה האוטומטי התאימה ברוב המכריע של המקרים, והצוות בדק ידנית את מספר המאות המקרים הנותרים, תיקן סיווגים שגויים והסיר כניסות שלא היו למעשה סרטים נרטיביים, כגון הופעות סטנד‑אפ. התוצאה הסופית היא אוסף מטופח של סרטים שבו כל סצנה, דמות וכתובית ניתנים לקישור למטא‑דאטה עשירה כגון שנה, מדינה ודמוגרפיה של צוות השחקנים.

מה חוקרים יכולים לעשות עם הסרטים האלה
מכיוון שלכל סצנה יש זמני התחלה וסיום ברורים ורשימת מי מופיע בה, חוקרים יכולים כעת לבנות מפות מדויקות של אינטראקציות בין דמויות וזמן מסך. כתוביות המתואמות לסצנות מאפשרות לחקור כיצד השפה שונה בין דמויות והקשרים, או כיצד נושאים מסוימים מתפתחים דרך הדיאלוג. באמצעות שילוב מאגר הנתונים הזה עם מידע נוסף מ‑IMDb ומקורות אחרים, חוקרים יכולים לבדוק שאלות כמו: כיצד השתנתה האיזון המגדרי על המסך לאורך עשורים? האם דמויות מרקעים שונים מקבלות תשומת לב נרטיבית שווה? כיצד דפוסי אינטראקציה משתנים בין ז'אנרים או בין מדינות? המאגר גם מציע קו בסיס איכותי למודלים של בינה מלאכותית שמנסים להבין תכני וידאו, כי הוא מספק "אמת קרקע" לגבי מי נראה ומתי.
עדשה חדשה על סרטים יומיומיים
במילים פשוטות, עבודה זו הופכת אלפי סרטים לאינדקס חיפוש שניתן לעבור בו סצנה־אחר־סצנה כדי לראות מי מופיע, מי מדבר וכיצד הסיפורים בנויים. אף שהאוסף מוגבל לכותרות הזמינות ב‑U.S. Prime Video ותלוי בתהליכי X‑Ray הפנימיים של אמזון, הוא עדיין מקיף סרטים משנים וז'אנרים רבים, ולא רק זוכי פרסים מפורסמים. המגוון הזה מאפשר לחוקרים לבחון סרטים יומיומיים, לא רק את הקלאסיקות שנשמרות בזיכרון. ככל שהמאגר יתרחב ויעודכן, הוא מבטיח להעמיק את הבנתנו כיצד סרטים משקפים חברה — ולספק לחוקרים חברתיים ולמומחי טכנולוגיה תמונה מדויקת יותר של מה שאכן קורה על המסך.
ציטוט: Shrestha, S., Heo, Y., Barron, A.T.J. et al. Scene-level movie data from Amazon X-Ray in the US market combined with IMDb. Sci Data 13, 275 (2026). https://doi.org/10.1038/s41597-026-06602-y
מילות מפתח: מאגרי נתוני סרטים, ניתוח ברמת הסצנה, Amazon X‑Ray, מטא‑דאטה של IMDb, ייצוג על המסך