Clear Sky Science · he

מערך נתונים לדיאלוג עלילתי: קורפוס שיח המסומן לפי דוברים ורגשות

· חזרה לאינדקס

מדוע סיפורים מדברים חשובים

כשאנו קוראים סיפור, איננו במודע שומרים על מי מדבר וכיצד הוא מרגיש. מחשבים, לעומת זאת, מתקשים עם סוג זה של שיחה עדינה ורגשית. מאמר זה מציג מערך נתונים חדש שעוזר למכונות להבין דיאלוגים עלילתיים כפי שאנשים עושים זאת: לא רק את המילים, אלא גם איזה דמות מדברת ואיזה רגש היא מבטאת. המשאב נבנה מתוך אלפי סיפורי ילדים והוא מיועד להניע צ׳אטבוטים, מערכות מסירת סיפורים וספרים מדברים שמרגישים טבעיים ובעלי מודעות רגשית.

Figure 1
Figure 1.

הפיכת סיפורים לשיחות

המחברים מתחילים מ-2,588 סיפורי ילדים קצרים באנגלית שנאספו ממאגר מקוון. כל סיפור כבר מציין את דמויותיו המרכזיות, אבל הטקסט עצמו כתוב בפרוזה רציפה, עם חלקי דיאלוג המוכנסים במרכאות. מטרת הצוות היא להפוך כתיבה חופשית זו לתסריט מסודר המורכב משורות כמו "דובר (רגש): דיאלוג", כך שכל משפט מדובר יוכל להילמד, להימדד או אפילו להילחש בקול ממחשב. בסך הכל הם מחלצים מעל 27,000 שורות דיאלוג שמקושרות ליותר מ-2,500 דמויות שונות.

למצוא מי אמר מה

למצוא מי מדבר בסיפור מורכב יותר ממה שנשמע. סופרים לעתים קרובות משתמשים בכינויים כמו "היא" או בביטויים כמו "הילד" במקום לחזור על שמות. כדי לפרום את הבלבול הזה, הצנרת תחילה מוחקת זמנית כל שורת דיבור במרכאות, ואחר כך מריצה כלי בשם FastCoref כדי לעקוב אחרי כינויי גוף ותיאורים בחזרה לדמות הנכונה. לאחר שחוזר הדיאלוג המקורי, כלי אחר, BookNLP, משייך כל שורה לדובר ספציפי ומסמן גם תכונות בסיסיות של הדמויות כמו מין. שורות שאינן בתוך מרכאות מטופלות כנרטיב, מדובר על-ידי "מספר" משתמע ומסומנות בתווית רגש נייטרלית, כך שהסיפור המלא יכול להיות מיוצג בצורת תסריט.

ללמד מכונות לשמוע רגשות

בהמשך, החוקרים מתייגים את הטון הרגשי של כל שורת דיאלוג. הם מאמנים רשת נוירונית על מערך גדול מטוויטר שבו טקסטים קצרים סומנו עם אחד משישה רגשות: שמחה, עצב, כעס, פחד, אהבה והפתעה. המודל משתמש ב-GRU דו-כיווני, סוג של רשת חוזרת שמיועדת לטפל בסדר המילים במשפטים. לאחר ניכוי וטעינת הטקסט, הם מאמנים את המודל עם משקל נוסף על רגשות נדירים כדי להפחית הטיה. על נתוני טוויטר שנשמרו לבחינה המודל מגיע לשיעור דיוק כולל של כ-94%. מודל מאומן זה מוחל לאחר מכן על דיאלוגי הסיפורים, ומקצה רגש לכל שורה ללא שינוי בניסוח, כך שהסגנון הספרותי המקורי נשמר.

לתפוס את לב כל סיפור

מעבר למי מדבר ואיך הוא מרגיש, מערך הנתונים גם רושם על מה כל סיפור מדבר. לשם כך, המחברים משתמשים במודל שפה גדול (Mistral-7B) עם פרומפט שעוצב בקפידה ומבקש בדיוק חמישה מילות מפתח שנלקחות מטקסט הסיפור. מילות מפתח אלה פועלות כתמצית קומפקטית — כמו שמות, מיקומים או חפצים מרכזיים — ויכולות לשמש מאוחר יותר כדי "להנחות" יצירות סיפור חדשות. התוצאה הסופית היא ייצוג רב-שכבתי לכל סיפור: סט של מילות מפתח, רשימת דמויות ותסריט שבו לכל שורה יש דובר ותווית רגש.

Figure 2
Figure 2.

בדיקת דיוק ושימוש בעולם האמיתי

כדי לבדוק עד כמה תוויות הדוברים אמינות, הצוות בוחן ידנית מאות שורות דיאלוג. שימוש ב-BookNLP בלבד מייחס נכונה כ-73% מהאוטראציות, אך כשהוא משולב עם FastCoref הדיוק עולה לכמעט 90%, במיוחד בקטעים עם הרבה כינויי גוף. הם גם מנתחים כיצד רגשות זורמים משורה לשורה ומוצאים דפוסים ראליסטיים: למשל, שמחה לעתים קרובות באה אחרי שמחה או מובילה להפתעה, בעוד שעצב נוטה יותר להתפתח לכעס מאשר להתהפך מיד לשמחה. לבסוף, הם מחדדים מודל שפה גנרטיבי על נתונים אלה, ומראים שהוא יכול להפיק דיאלוג חדש ששומר במידה רבה על הרגש או על מילות המפתח המבוקשות, וכן מפעילים מערכת טקסט-לדיבור רגשית שמאזינים מדרגים כטבעית ובעלת הבעה מתאימה.

מה זה אומר לסיפורים עתידיים

במילים פשוטות, עבודה זו הופכת סיפורי ילדים רגילים למפה עשירה של מי מדבר, כיצד הוא מרגיש ועל מה עוסק הסיפור. במקום להתייחס לטקסט כזרם שטוח של מילים, מערך הנתונים מאפשר למחשבים לעקוב אחרי דמויות ורגשותיהן המשתנים משורה לשורה. זה הופך אותו לבסיס חזק ליישומים עתידיים, החל מספרי שמע שמבצעים כל דמות בטון הנכון, דרך כלי כתיבה יצירתיים ומשחקי חינוך שמגיבים בעדינות למצב רוח הילד. על-ידי פרסום חופשי של קורפוס מובנה זה עם מודעות רגשית, המחברים נותנים לחוקרים דרך חדשה לחקור ולבנות מערכות נרטיביות באמת בעלות הבעה.

ציטוט: Patil, U., Hanmante, S., Patil, S. et al. Narrative Dialogue Dataset: Speaker and Emotion Annotated Conversational Corpus. Sci Data 13, 507 (2026). https://doi.org/10.1038/s41597-026-06891-3

מילות מפתח: דיאלוג בעל מודעות רגשית, מערך נתונים של סיפור-מסופר, זקיפות דובר, סינתזת דיבור רגשית, בינה עלילתית