Clear Sky Science · he

יצירת תגובות המונעות מריבוי רגשות ועוצמתם לשיח מולטימודלי עשיר יותר

2026-04-02 · חזרה לאינדקס

מדוע צ׳אטבוטים חכמים צריכים להרגיש יותר כמונו

רובנו כיום מדברים עם עוזרים דיגיטליים בטלפון, במחשב או ברמקול חכם. מערכות אלה טובות במתן תשובות, אך לעתים קרובות מפספסות את הטון הרגשי שמאחורי המילים שלנו. המאמר הזה בוחן איך לבנות בינה מלאכותית שאינה רק מזהה מצב רוח יחיד, אלא יכולה לערב מספר רגשות בו־זמנית ולהתאים את עוצמת כל אחד מהם, באמצעות דיבורנו, רמזי הפנים והטקסט ביחד.

Figure 1. עוזר בינה מלאכותית המשלב רמזי קול, הבעות פנים וטקסט כדי להשיב ברגשות מעורבים ועשירים יותר.

ממצבים פשוטים לרגשות רב־שכבתיים

שיחות יומיומיות לעיתים רחוקות הן שמחה טהורה או כעס טהור. משפט אחד יכול לשאת גם הפתעה וגם אושר, או כעס משולב בגועל, וכל רגש עלול להיות חלש או חזק. מערכות שיח קודמות בדרך כלל ניסו לייחס לכל הודעה רגש עיקרי אחד. גם כאשר קיבלו שמספר רגשות עשויים להיות נוכחים, הן לעתים קרובות התייחסו אליהם כאל בעלי אותה עוצמה. כתוצאה מכך, תשובותיהן נשמעו שטוחות או מוגזמות, ולא נשמר מי מהרגשות צריך לשלוט בתגובה.

להקשיב עם עיניים, אוזניים ומילים

כדי להתמודד עם זה, המחברים מתבססים על אוסף גדול של סצינות משמונה סדרות טלוויזיה אנגליות פופולריות, המכסות גם דרמה וגם קומדיה. מאגר הנתונים המקורי, שנקרא MEIMD, תייג כל שורת דיאלוג במספר רגשות וציון עוצמה לכל אחד, אך אחסן רק את טקסט התסריט. החוקרים מעשירים אותו על-ידי הוספת קטעי קול ווידאו תואמים, ויוצרים משאב מולטימודלי חדש בשם MEIMD++. כעת כל משפט מלווה בקול השחקן ובהבעות פניו בנוסף למילים, ומציע תמונה מלאה יותר של האופן שבו רגשות מתבטאים בפועל.

Figure 2. מבט פנימי על מודל בינה מלאכותית הממזג מספר אותות רגשיים בעוצמות שונות לתוך תגובה אחת.

איך המודל השיחי החדש עובד מבפנים

המערכת המוצעת, הנקראת MMEI-DD, בנויה ממספר רכיבי למידה עמוקה שכל אחד מתמקד באות שונה. חלק קורא את טקסט השיח, חלק אחר מעבד פריימים מהווידאו, וחלק שלישי מקשיב לקול. מודול מיוחד לומד כיצד הזרמים הללו מתקשרים זה עם זה, למשל על-ידי חיבור טון חדה וקמטף למצח למשפט שנראה ניטרלי. הייצוג המשולב הזה מאפשר למודל לאמוד טוב יותר אילו רגשות קיימים וכמה חזקים הם לפני שהוא בוחר תגובה.

מיזוג מספר רגשות בעוצמות המתאימות

במקום להחליט על מצב רוח אחד וליצור תגובה במהלך יחיד, המודל משתמש בתהליך דיקוד בן שתי שלבים. בשלב הראשון הוא מייצר טיוטת תגובה המונחית על-ידי רגש אחד ועוצמתו שנבחרה, כגון כעס חזק. בשלב השני הוא משכלל את הטיוטה על־ידי הוספת רגש שני ועוצמתו, כגון הפתעה קלה או גועל נמוך. על-ידי הפרדת שלבים אלה, המערכת נמנעת ממתן יתר לשיעת אחד הרגשות על חשבון האחרים ושומרת על איזון ביניהם קרוב יותר למה שמופיע בשיחה המקורית.

האם רמזים רגשיים עשירים יותר מובילים לתגובות טובות יותר

כדי לבדוק את הגישה שלהם, המחברים משווים את MMEI-DD עם כמה מערכות קודמות הן במדדי אוטומציה והן בהערכות אנושיות. הם מודדים עד כמה התגובות קולחות ורלוונטיות, עד כמה הן תואמות את הרגשות המיועדים, ועד כמה עוצמת כל רגש מתיישרת עם היעד. בבדיקות אלה, המודל החדש מפיק תגובות קוהרנטיות ורגשית מפורטות יותר מאשר שיטות שמסתמכות רק על טקסט או שמתעלמות מעוצמה. גם מעריכים אנושיים מדרגים את תשובותיו כיותר טבעיות ומתאימות מבחינה רגשית.

מה משמעות הדבר עבור עוזרים חכמים יומיומיים

עבור הקהל הרחב, המסר המרכזי הוא שעבור צ׳אטבוטים ועוזרי קול בעתיד יתכן כי יוכלו להגיב לא רק למה שאנו אומרים, אלא לתערובת העדינה של רגשות שמאחורי מילינו. על-ידי ניצול קול, הבעות פנים ושפה יחד, ועל-ידי שליטה זהירה במספר רגשות ובעוצמותיהם, מערכות כמו MMEI-DD מתקרבות לשיחות שמרגישות מובנות ולא רק נענות.

ציטוט: Singh, A., Shree, R., Pandey, D. et al. Multi-emotion and intensity-driven response generation for richer multimodal dialogue. Sci Rep 16, 15696 (2026). https://doi.org/10.1038/s41598-026-41034-z

מילות מפתח: צ׳אטבוטים רגשיים, שיח מולטימודלי, ניתוח סנטימנט, עוצמת הרגש, בינה שיחתית