Clear Sky Science · he
הערכת איכות תרגומי כתוביות שנוצרו על ידי בינה מלאכותית מזווית קליטה: מחקר השוואתי של ChatGPT, תרגום אנושי ותרגום מכונה נוירוני בסיטקומים
למה כתוביות בקומדיה חשובות
שירותי הסטרימינג הפכו סדרות זרות לבידור יומיומי, אבל בדיחות עלולות לא לתפוס אם הכתוביות אינן מדויקות. המחקר בוחן כמה טוב עובדות סוגי כתוביות שונות בסינית–אנגלית עבור הסיטקום האמריקאי הקלאסי Friends, ושואל שאלה פשוטה שמשמעותית לכל צופה: האם כלי בינה מלאכותית כמו ChatGPT מקלים או מקשים על ההנאה מהתוכנית?
דרכים שונות ליצירת כתוביות
החוקרים השוו בין שלושה סוגי כתוביות עבור קטעים קצרים מהפרק הראשון של Friends. הקבוצה הראשונה נוצרה על ידי קבוצה מקצועית של מעריצים שתירגמה את הדיאלוג בקפדנות. הקבוצה השנייה השתמשה במנוע תרגום מקוון מוכר. השלישית השתמשה ב-ChatGPT, שהתבקש לתרגם את השורות באנגלית לסינית טבעית בלבד. כל הכתוביות היו דו-לשוניות, עם סינית מעל אנגלית, וכללו רגעים בעיתיים שכללו משחקי מילים, סרקזם או שינויי טון רגשיים — אלמנטים חשובים במיוחד בקומדיה.
כדי להבין כיצד הצופים הגיבו, הצוות שלח חבילה מקוונת למאות משתתפים סינים. כל משתתף צפה בתשעה קטעים: שלוש סצנות, כל סצנה הוצגה שלוש פעמים עם גרסאות כתוביות שונות בסדר אקראי כך שלא ידעו איזו גרסה הם צופים. לאחר כל שלשה, נדרשו לבחור אילו כתוביות עזרו להם להבין את העלילה ולדרג את שביעות רצונם בסולם פשוט של חמישה נקודות. שאלה סופית בדקה מה הם מעריכים ביותר בכתוביות — דיוק, קלות הבנה או זרימה חלקה עם הווידאו.

מדידת איכות הכתוביות משתי נקודות מבט
המחקר לא הסתפק בדעות אישיות. המחברים גם העבירו את שלוש גרסאות הכתוביות דרך מערכת דירוג מקצועית שמדרגת עד כמה הכתוביות מתאימות למשמעות המקורית, קוראות בצורה חלקה ומתאימות למסך בנוחות. המערכת עוקבת אחרי סוגי טעויות שונים, מתשמישי ניסוח מגושמים ועד לשינויים משמעותיים במשמעות, וממירה אותם לציון איכות כולל. על ידי השוואת ציונים אלה עם דירוגי הצופים, החוקרים יכלו לראות האם הערכות בסגנון מומחה מתיישרות עם חוויית הקהל היומיומית.
בכל שלוש הסצנות, כתוביות של ChatGPT ניצחו בבירור את אלו של מנוע תרגום המכונה המסורתי הן בציונים המקצועיים והן בשביעות רצון הצופים. במקרים מסוימים, במיוחד בקטע אחד, גרסת ChatGPT אף קיבלה ציון גבוה יותר מהכתוביות המקצועיות בהערכה הטכנית. הצופים פעמים רבות מצאו את הניסוחים שלה טבעיים וקלים להבנה, ורבים לא יכלו להבדיל ביניהן לבין עבודה אנושית בהחלטיות. עם זאת, בממוצע, הכתוביות האנושיות עדיין התבררו כקצת מקדימות בדירוג הקהל, במיוחד בכל הנוגע ללכידת הומור או ביטויים עשירים תרבותית.

מי הם הצופים משנה את מה שהם רואים
המחקר מצא שרקעי האנשים עיצבו עד כמה בקפדנות הם שפטו את הכתוביות. תלמידי תיכון נטו לתת ציונים דומים לכל שלוש הגרסאות, ולעיתים אהבו את כתוביות ChatGPT כפי שהיו או אפילו יותר מהכותבות המקוריות של המעריצים. סטודנטים באוניברסיטה ואנשים עם תארים מתקדמים היו ביקורתיים יותר ומיומנים יותר בזיהוי הבדלים בין הגרסאות. צופים שכבר צפו ב-Friends קודם לכן היו גם רגישים יותר לניואנסים, ונטו להעדיף את הכתוביות המקוריות, בעוד שאלה החדשים לסדרה התקשו להבדיל בין הגרסאות. האם מישהו למד שפות השפיע פחות מהשכלתו הכללית ומהמוכרות שלו עם הסדרה.
למה בינה מלאכותית עדיין צריכה נגיעה אנושית
דוגמאות קונקרטיות במאמר מראות הן את ההבטחה והן את המגבלות של כתוביות בינה מלאכותית. בכמה בדיחות, ChatGPT ייצר סינית חלקה וחיה יותר מהגרסה המקצועית, מה שהפך את ההומור למיידי יותר. ברגעים אחרים תרגם מילולית ופיספס משמעויות נסתרות או רמיזות תרבותיות, שיכלו לבלבל צופים. הסקר אישש כי הצופים דואגים קודם כל להבנת העלילה, כאשר דיוק ותזמון חלק גם הם חשובים. המחברים מסכמים שכלים כמו ChatGPT כבר מציעים כתוביות סיטקום טובות יותר ממנועי תרגום ישנים ולעיתים יכולים להתחרות בעבודה אנושית, אך הם עדיין זקוקים לעריכה ותיקון קפדניים. לעת עתה, התוצאות הטובות ביותר נובעות משילוב מהירות הבינה המלאכותית עם שיקול דעת אנושי, שמאפשר ליותר צופים ליהנות מתוכניות זרות מבלי לאבד את הלב של ההומור.
ציטוט: Chen, S., Hu, X. Evaluating the quality of AI-generated subtitle translations from a reception-oriented perspective: a comparative study of ChatGPT, human, and neural machine translations in sitcoms. Humanit Soc Sci Commun 13, 748 (2026). https://doi.org/10.1057/s41599-026-07414-6
מילות מפתח: כתוביות, תרגום אודיו-ויזואלי, ChatGPT, סיטקומים, קליטת צופים