Clear Sky Science · he
מסגרת למידת אסמבל משולבת לערכת לגילוי רגשות מרובת-תוויות בטקסט
מדוע חשוב לקרוא רגשות בטקסט
בכל יום אנשים שופכים את רגשותיהם בפוסטים ברשתות החברתיות, בביקורות ובהודעות. בתוך הצפה זו של מילים חבויים אזהרות מוקדמות לגבי קשיים נפשיים, התגברות על פי שנאה, ותגובות ציבוריות למשברים ואסונות. אבל מחשבים בדרך כלל רואים רק “חיובי” או “שלילי”, וחולפים על פני התערובת של רגשות שאנשים מבטאים לעתים בו־זמנית. מאמר זה בוחן שיטה חדשה ללמד מכונות לזהות מספר רגשות בטקסט יחיד, ולעשות זאת לא רק באנגלית אלא גם בשפות שמתקשות בדרך כלל להפיק תועלת מתקדמות של בינה מלאכותית.
לצאת מעבר ל"חיובי" או "שלילי" פשוט
כלי ניתוח סנטימנט מסורתיים הם כמו מדחום גס: הם יכולים לומר אם המצב רוח טוב או רע, אבל לא אם מישהו מרגיש כעס, פחד, תקווה או הקלה בו-זמנית. המחברים טוענים שהבנת הפלטת הרגשות העשירה הזו חשובה ליישומים כמו תגובה לאסונות, תמיכה בטיפול ושרות לקוחות. הודעה שמערבבת פחד ודחיפות, למשל, עשויה לדרוש תשומת לב מיידית, בעוד הודעה שמשלבת עצב ואופטימיות עשויה להזדקק לתמיכה מסוג שונה. לכידת מספר רגשות במקביל — הידועת כ"גילוי רגשות מרובת-תוויות" — היא לכן צעד מרכזי בדרך למערכות רגישות ומודעות אנושית יותר.

להעניק קול לשפות שמוזנחות
רוב הטכנולוגיות הלשוניות החזקות מאומנות ומותאמות על אנגלית וכמה שפות נפוצות אחרות. דוברי שפות מועטות משאבים — אלה עם מעט נתוני תיוג וכלים דיגיטליים מועטים — נוטים להישאר מאחור. כדי להתמודד עם הפער הזה, החוקרים מתמקדים בשלושה מאגרים: סט מדידת רגשות אנגלי ידוע; אוסף באהסה אינדונזית המתמקד בשפה פוגעת ושנאה; ומאגר טוויטר האוסה החדש שיצרו, הנקרא HaEmoC_V1. מאגר האוסה כולל יותר מתריסר אלף ציוצים שתוקנו וסומנו בקפידה, כאשר כל אחד מתוייג בתווית אחת או יותר מתוך אחת-עשרה רגשות כגון כעס, שמחה, אמון, פסימיות וציפייה. מבקרי מומחים בדקו את התוויות, וציון ההסכמה הראה שההערות הן גם עקביות וגם אמינות.
שילוב כמה "קוראים" חכמים לאחד
בלב המחקר עומד Hyb-Stack, אסמבל ערום משולב — סוג של "ועדת מומחים" לשפה. ארבעה מודלים מתקדמים מבוססי טרנספורמר (BERT, RoBERTa, DistilBERT וה-mBERT הרב-לשוני) נוסו כל אחד לכידת סימני רגשות בטקסט. במקום להסתמך על מודל יחיד, Hyb-Stack מאפשר לכולם להפיק תחזיות, ואז מזין את הציונים הפנימיים שלהם למקבל החלטות ברמה שנייה: ממויין Random Forest. המטא-מְמַיינֵת לומדת כיצד לשקלל את החוזקות השונות של כל מודל, ותופסת דפוסים מורכבים באופן שבו רגשות מופיעים במקביל. הצוות גם בוחן שיטות אסמבל פשוטות יותר שממוצעות תחזיות, עם או בלי משקל לפי ביצועים קודמים, כדי לבדוק האם הערימה המורכבת באמת משתלמת.
כמה טוב מתפקדת הגישה המשולבת
בכל שלוש השפות, ה-mBERT הרב-לשוני בולט כמודל החזק היחיד, ומתפקד היטב במיוחד על נתוני האוסה החדשים ועל סט השפה הפוגעת בבאהסה אינדונזית. עם זאת, האסמבל המשולב הולך אף רחוק יותר. שילוב מסוים — המכונה EM-9, הממזג את BERT, DistilBERT ו-mBERT בתוך מסגרת Hyb-Stack — מספק בעקביות את התוצאות הטובות ביותר. הוא משיג ציון F1 גבוה יותר, מדד דיוק נפוץ, מאשר כל מודל יחיד או גישת ממוצע פשוטה, עם התגברויות הגדולות ביותר שמופיעות במאגרים מועטי המשאבים של האוסה ובאהסה אינדונזית. ניתוחי שגיאות מפורטים מראים שהטעויות שנותרו בדרך כלל מתרחשות בין רגשות קשורים זה לזה, כמו שמחה מול הפתעה או עצב מול פחד, ומשקפות את הערפל הטבעי של הרגש האנושי יותר מאשר כשלים ברורים של המערכת.

מה המשמעות של זה למערכות בעולם האמיתי
לקריאה כללית, המסקנה המרכזית היא ששילוב כמה מודלי בינה מלאכותית בצורה חכמה יכול לעזור למחשבים לקרוא רגשות בטקסט ביתר דיוק, במיוחד בשפות שהוזנחו במשך זמן רב בטכנולוגיה. על ידי בניית מאגר רגשות האוסה איכותי והצגה שאסמבלים משולבים מצטיינים על פני מודלים יחידים וסכימות הצבעה פשוטות, המחברים מראים דרך מעשית לשאיפה לכלים כוללים ורוויי רגש. עבודות עתידיות ירחיבו את הגישה לגוונים רגשיים עדינים יותר, לשפה מעורבת קוד, לאימוג'ים ולשפות נוספות שאינן מיוצגות, במטרה ליצור מערכות שיכולות לחוש לא רק אם אנשים שמחים או עצובים, אלא איך ולמה הם מרגישים כך — לא משנה באיזו שפה הם מדברים.
ציטוט: Adamu, H., Azmi Murad, M.A. & Nasharuddin, N.A. A hybrid stacked ensemble learning framework for multilabel text emotion detection. Sci Rep 16, 7714 (2026). https://doi.org/10.1038/s41598-026-38172-9
מילות מפתח: גילוי רגשות, עיבוד שפה רב-לשוני, למידת אסמבל, מודלי טרנספורמר, שפות מועטות משאבים