Clear Sky Science · he

אסטרטגיה חדשנית בריבוי מודולים של רשתות ניורונליות לזיהוי רגשות אדם באינטראקציה אדם-רובוט

· חזרה לאינדקס

ללמד רובוטים לקרוא את רגשותינו

כששולחים רובוטים לבתים, בתי חולים וכיתות לימוד, לא מספיק שהם יבצעו פקודות בלבד. כדי להיות מועילים באמת, הם צריכים לחוש איך אנו מרגישים ולהתאים את התנהגותם — להרגיע מטופל נרגש, לשכך נהג מוטרד או לעודד תלמיד ביישן. מאמר זה מציע דרך חדשה לרובוטים לקרוא רגשות אנושיים מתוך הבעות פנים במהירות ובדיוק, גם בתנאי עולם אמיתי מבולגנים שבהם תאורה, רקע וחסימות חלקיות לעתים מבלבלים מערכות חישוביות.

Figure 1
Figure 1.

מדוע רובוטים רגישים רגשית חשובים

אינטראקציה אדם–רובוט תלויה ביותר מאשר פקודות קוליות ותנועות מדויקות. בני אדם משדרים רגשות באופן טבעי דרך פניהן, ואנו מצפים שמכונות בעלות אינטליגנציה חברתית יבחינו בכך ויגיבו באופן מתאים. מערכות זיהוי רגשות קיימות לעתים קרובות עובדות היטב רק בתנאי מעבדה מבוקרים: הפנים ממורכזות, מאוררות היטב ונראות בבהירות. בחיי היומיום, עם זאת, הפנים מופנות, מוסתרות חלקית או מצולמות בתאורה גרועה, וחלק מהרגשות — כגון פחד או גועל — מופיעים הרבה פחות בתמונות אימון. המחברים שואפים לגשר על הפער הזה על ידי עיצוב מערכת זיהוי רגשות עמידה מספיק לשימוש בעולם האמיתי בסביבות כמו סינון ביטחוני, תמיכה רפואית, ניטור נהג והוראה מותאמת אישית.

מיזוג רשתות מרובות בהשראת המוח

במקום להסתמך על רשת ניורונלית בודדת, החוקרים בונים מערכת "רב-מודולית" שמשלבת את חוזקותיהם של מספר מודלים מתקדמים לניתוח תמונה. ארבע רשתות שונות מבוססות קונבולוציה וטרנספורמר בוחנות כל אחת את תמונות הפנים הנכנסות בדרכן: חלקן מתמקדות ביעילות לשימוש בזמן אמת, אחרות מצטיינות בלכידת פרטים עדינים או בקשרים לטווח ארוך בין אזורים בפנים, ואחת מדגישה אזורים קריטיים כגון העיניים והפה. הפלטים שלהן מאוחדים לייצוג משותף ועשיר שתופס גם מרקמים עדינים וגם דפוסים גלובליים של הבעה. ייצוג מאוחד זה מוזן אז לקבוצת מסווגים, כולל רשת קונבולוציה, יחידת רקורנטית שיכולה לעקוב אחרי שינויים לאורך זמן בוידאו, ורשת רב-שכבתית מסורתית, והצבעתן המשולבת מניבה את תווית הרגש הסופית.

Figure 2
Figure 2.

עיניים חדות יותר ונתוני אימון חכמים יותר

כדי לוודא שהרובוט מתמקד בפנים הנכונות ברגע המתאים, המערכת משלבת טרנספורמר לזיהוי עצמים, גישה מודרנית לזיהוי עצמים שמטפלת במציאת פנים כמשימת חיזוי ישירה במקום לסרוק את התמונה בעזרת תיבות חופפות רבות. מרכיב זה לומד לאתר פנים באמינות, גם בסצנות צפופות, ומעביר אזורי פנים נקיים וממוקדים למודולי הרגש. המחברים גם משלבים תכונות הנלמדות אוטומטית עם תיאורי-תכונות מסורתיים שנוצרו ביד ושונים, שמתמקדים בקצוות ובמרקם מקומי, ויוצרים מערך תכונות היברידי שעמיד יותר לשינויים בתאורה ולחסימות חלקיות. כדי לפצות על האי-איזון הטבעי של קטגוריות רגש — הרבה יותר פרצופים מחייכים מאשר מפוחדים — הם מעמיסים את נתוני האימון בשיטות הגברה כמו סיבוב, היפוך ושינוי צבע וקונטרסט, וכך מייצרים דוגמאות חדשות ומגוונות של הבעות שאינן מיוצגות היטב.

בדיקות על פנים אמיתיים ומאתגרים

הצוות מעריך את הגישה שלהם על שני מאגרי הבעות פנים נפוצים — AffectNet ו-CK+ — וכן על מאגר חדש שבנו במעבדה שלהם. מאגר זה נבנה בכוונה לכלול תאורה קשה, רקעים מורכבים ומשתנים, ואנשים מרקעים תרבותיים מגוונים, וכך מדמה טוב יותר מצבים שהרובוט עלול להיתקל בהם בשטח. בכל שלושת מאגרי המידע, המערכת הרב-מודולית משיגה דיוק גבוה, חוצה את רף ה-90% באוספים הפומביים וכמעט 98% בנתוני המעבדה המוקפדים. שיטות הגברת הנתונים משפרות בעקביות את הביצועים, במיוחד עבור רגשות קשים כמו פחד וגועל, והאנצמבל המשולב גובר על צינורות מסורתיים מבוססי תכונות ידניות ועל קווי בסיס מודרניים של רשת יחידה. חשובה העובדה שעקב בחירת משפחת מודלים יעילה, העיבוד נשאר מהיר דיו לתגובות בזמן אמת.

לבנות שותפים מכונתיים רגישים יותר

ברמה המעשית, עבודה זו מראה שאפשר לצייד רובוטים במערכת ראייה רב-שכבתית שלא רק מוצאת פנים אלא גם קוראת את תוכן הרגשי שלהן ברמת אמינות המתאימה לשימוש יומיומי. על ידי הצבת מספר רשתות מומחיות, הוספת מודול זיהוי פנים מודרני והרחבה ואיזון קפדניים של נתוני האימון, המערכת מסוגלת להבין טווח רחב של רגשות בסיסיים גם בתנאי ראייה מאתגרים. עבור לא-מומחים, המסקנה פשוטה: עם ארכיטקטורה כזו, רובוטים ומכשירים אינטראקטיביים עתידיים יהיו טובים יותר בזיהוי מתי מישהו שמח, מוטרד, חרד או אדיש — וביכולת להתאים את פעולותיהם בהתאם — מה שהופך את האינטראקציה שלנו עם מכונות לטבעית, תומכת ובעלת מימד אנושי.

ציטוט: Zaman, K., Islam, A.U., Zengkang, G. et al. A novel multi-module neural networks strategy of human emotion recognition in the human-robot interaction. Sci Rep 16, 11433 (2026). https://doi.org/10.1038/s41598-026-40798-8

מילות מפתח: אינטראקציה אדם-רובוט, זיהוי רגשות, הבעות פנים, למידה עמוקה, ראייה מבוססת טרנספורמר