Clear Sky Science · he
SiaCon-DetNet עם HySHO: מסגרת למידת עומק מבוססת טרנספורמר מהשורה הראשונה לזיהוי סמוך של רגשות מפני אדם
מדוע חשוב ללמד מחשבים לקרוא רגשות
משיחות וידאו ועד מורים וירטואליים ואפליקציות בריאות — אנו פוגשים מכונות דרך מסכים יותר ויותר. עם זאת, רוב המערכות האלה עדיין "חרשות" מבחינה רגשית: הן לא מזהות אם אנו מבולבלים, לחוצים או שמחים. מאמר זה מציג מסגרת בינה מלאכותית חדשה שקוראת הבעות פנים בדיוק ויעילות גבוהים יותר משיטות קודמות, במטרה להפוך כלים דיגיטליים ליותר אמפתיים, הוגנים ומועילים בחיי היומיום.
כיצד הפנים מספקות למכונות חלון רגשי
הפנים שלנו משדרות באופן רציף מידע על מה שאנו מרגישים, לעיתים כן יותר ממילותינו. חיוכים, קמטים, עיניים מורחבות ותנועות שרירים עדינות מסייעים לנו לנווט בשיחות, לבנות אמון ולגלות מצוקה. חוקרים בפסיכולוגיה, נוירולוגיה ומדעי המחשב מנסים כבר זמן רב ללמד מחשבים לקרוא רמזים אלה — תחום הידוע כזיהוי רגשות מפני אדם. הטכנולוגיה הזו כבר מופיעה בפלטפורמות חינוכיות שעוקבות אחרי מעורבות תלמידים, במערכות משחק שמתאימות את עצמן למצב הרוח של השחקן, בכלים רפואיים שמנטרים כאב או דיכאון ובמערכות אבטחה שמחפשות סימני עצבנות. אבל תנאים מהעולם האמיתי מסובכים: תאורה משתנה, הפנים חלקית מוסתרות, והבעות שונות בין אנשים ותרבויות, מה שהופך את קריאת הרגש למשימה קשה.

מדוע מערכות רגשיות ישנות לא עושות את העבודה
מערכות מוקדמות נשענו על כללים שתוכננו ביד, ומדדו תכונות פשוטות כמו קמטים, קצוות או צורת הפה והעיניים. אלה התקשו מול שינויים בעמידה, בתאורה או בהבדלים אישיים. למידת עומק הביאה שיפור בכך שאפשרה לרשתות נוירונים ללמוד דפוסים מועילים מתמונות פנים באופן אוטומטי, אך ארכיטקטורות נפוצות עדיין השאירו עיוותים. רשתות קונבולוציה מצטיינות בזיהוי פרטים מקומיים, אך מתקשות לקשר בין אזורים מרוחקים של הפנים, כמו התנועה המשולבת של העיניים והפה בהבעה מעורבת. מודלי טרנספורמר מודרניים לוכדים יחסים לטווח ארוך, אך הם עלולים להיות כבדים, תובעניים בנתונים ולא אידיאליים ללכידת פרטים זעירים ברמה נמוכה. רבות מהמערכות הקיימות דורשות כוונון ידני מדוקדק של מאות פרמטרים ופעמים רבות אינן מתכללות היטב מחוץ לנתונים שעליהם הוכשרו.
גישה חדשה עם שני ענפים ומיקוד תשומת-לב
המחברים מציעים SiaCon-DetNet, רשת היברידית שמשלבת את היתרונות של כמה רעיונות. ראשית, היא משתמשת במבנה סיאמאי — שני ענפים זהים שעובדים על תמונות פנים תואמות — כדי ללמוד מה באמת מבחין בין רגש אחד לאחר. עיצוב התאומים הזה עוזר למודל להבחין בהבדלים זעירים, למשל בין פחד להפתעה, שעלולים לכלול שרירים דומים. בכל ענף, שכבות קונבולוציה לוכדות מרקמים וצורות עדינות, כמו קימורי גבות או מתיחות בפה. מעל לכך, מודול מבוסס טרנספורמר פועל כמו זרקור תשומת-לב, לומד כיצד אזורים מרוחקים בפנים קשורים זה לזה ומתרכז באזורי המידע הרלוונטיים ביותר. יחד, רכיבים אלה מאפשרים למערכת לבנות תמונה עשירה ומודעות־הקשר של כל הבעה, גם כאשר הפנים חלקית מוסתרות או מוארות באופן לא אחיד.
כוונון בהשראת טבע ללמידה חדה ומהירה יותר
עיצוב מודל חזק הוא רק חצי מהסיפור; צריך גם לכוונן אותו כדי שיוכל ללמוד במהירות ללא היוון יתר. כדי להתמודד עם זאת, המאמר מציג את HySHO, סכימת אופטימיזציה "בהשראת ביולוגיה" המשלבת אסטרטגיות המדמות ציפור צייד (הגושזק הצפוני) וחתול מדברי. חלק אחד חוקר טווח רחב של הגדרות, כמו שיעורי לימוד וגודל מסננים, ומונע מהמערכת להיתקע בפתרונות גרועים. החלק השני מבצע כוונונים מדויקים באזורי הבטחה, ומאיץ את ההתכנסות. כוונון דינמי זה קשור למידת השונות בהבעות הפנים במערכת נתונים נתונה, ומאפשר למודל להתאים את עצמו כאשר הוא נתקל ברגשות עדינים, מעורבים או רועשים. כתוצאה מכך, האימון נעשה גם מהיר יותר וגם חסין יותר, ותומך ביישומים בזמן אמת או קרוב לזמן אמת.

בדיקה מעשית של המערכת
כדי להעריך את המסגרת שלהם, החוקרים בדקו אותה על שלוש מערכות נתונים נפוצות לזיהוי רגשות השונות בגודל וברמת הקושי. אוספים אלה כוללים הבעות מודעות וטבעיות יותר על פני מספר רגשות בסיסיים כמו כעס, פחד, שמחה, עצב, גועל, הפתעה ונייטרליות. המערכת החדשה הגיעה לכ־99 אחוז דיוק על הבנצ'מארק המוכר ביותר ושמרה על מדדי Precision, Recall ו‑F1 מרשימים כמעט בכל קטגוריות הרגש. חשוב מכך, היא השיגה זאת תוך אימון מהיר יותר מאשר רבים ממודלי למידת העומק הפופולריים שבנויים על ארכיטקטורות תמונה ידועות. ניתוחים של האופן שבו רגשות שונים מתואמים בכל מערכת נתונים הראו שהמודל טיפל בזוגות קשים — כגון כעס מול גועל או פחד מול עצב — ללא ירידות ביצועים גדולות, מה שמעיד שהוא קולט את המבנה העדין של ההבעות במקום לשנן מקרים בולטים.
מה משמעות הדבר לטכנולוגיה יומיומית
במילים פשוטות, המחקר מראה שניתן לעצב בינה מלאכותית "שמביטה" על הפנים באופן יותר דומה לאדם — משווה הבדלים עדינים, מבין הקשר בכל הפנים ומכייל את אסטרטגיית הלמידה שלה באופן דינמי. מסגרת SiaCon-DetNet עם HySHO מציעה דיוק גבוה מאוד בעוד שהיא יחסית קלת ומהירה לאימון, מה שהופך אותה למועמד חזק לכלים עתידיים לסקרינג בריאות הנפש, הוראה אינטראקטיבית, שירות לקוחות וטכנולוגיות סיוע לאנשים עם קשיי תקשורת. על אף שהשאלות לגבי פרטיות, הסכמה והוגנות עדיין חשובות, עבודה זו מקרבת את המערכות המודעות לרגש ליכולת לקרוא את רגשותינו באופן אמין מספיק כדי להגיב ברגישות במקום להסתמך על ניחוש.
ציטוט: M, S., M, U., K, T. et al. SiaCon-DetNet with HySHO: a cutting-edge transformer-based deep learning framework for emotion-aware facial recognition. Sci Rep 16, 14131 (2026). https://doi.org/10.1038/s41598-026-41890-9
מילות מפתח: זיהוי רגשות פנים, למידת עומק, מודלים מבוססי טרנספורמר, אינטראקציה אדם–מחשב, חשוב רגשי (affective computing)