Clear Sky Science · he

FERMam: מסגרת מיזוג משקל-קל ממקורות-כפולים ורב-סקאלתית לזיהוי הבעות פנים

· חזרה לאינדקס

מדוע חשוב ללמד מחשבים "לקרוא" פנים

הטלפונים, המכוניות והמכשירים הביתיים שלנו משתפרים בהבנת מה שאנו אומרים, אך עדיין מתקשים לזהות כיצד אנו מרגישים. זיהוי הבעות פנים מטרתו לשנות זאת על ידי מתן יכולת למכונות "לקרוא" רגשות של בני אדם מפנים בתמונות או בסרטון. זה יכול להפוך שיעורים מקוונים לרגישים יותר, מערכות ניטור נהגים לבטוחות יותר ורובוטים חברתיים ליותר טבעיים באינטראקציה. האתגר הוא לעשות זאת במדויק ובמהירות על מכשירים יומיומיים כמו טלפונים, טאבלטים ורובוטים שירותיים שאינם נהנים מכוח מחשוב של מרכז נתונים גדול. מאמר זה מציג את FERMam, שיטה חדשה שעוצבה לקרוא הבעות בצורה מהימנה תוך שימוש בכוח מחשוב קטן בהרבה מאשר רוב המערכות הנפוצות כיום.

להסתכל על הפנים משתי זוויות מועילות

מרבית המערכות הקיימות בוחנות פנים באחת משתי דרכים. רשתות קונבולוציה מצטיינות בזיהוי פרטים מקומיים כגון קמטים או צורת הגבות, אך מתקשות לראות כיצד חלקים מרוחקים בפנים מתקשרים זה עם זה. מודלים מבוססי טרנספורמר תופסים היטב יחסים ארוכי טווח אך כבדים ואיטיים, מה שמקשה על הרצתם במכשירים קטנים. FERMam משלבת את היתרונות של שתי הגישות בעיצוב "דו-מקור". ענף אחד מתמקד במראה הכללי של הפנים, תוך שימוש בקודד תמונה חזק אך יעיל. הענף השני עוקב אחר נקודות ציון חשובות בפנים — נקודות סביב העיניים, הפה ואזורים משמעותיים נוספים. נקודות ציון אלה מדגישות את הגיאומטריה של הפנים, שנוטה להישאר יציבה גם כאשר משתנים תאורה, גוון עור או רקע. על ידי מיזוג הופעה וגיאומטריה, FERMam יכולה למקד את תשומת הלב באזורים העדינים שבהם רגשות באמת באים לידי ביטוי.

Figure 1
Figure 1.

ללכוד גם פרטים קטנים וגם תמונה כוללת

לאחר חילוץ תכונות בסיסיות, FERMam מעבירה אותן דרך מודול מיוחד שנקרא Conv-SSM. נתיב אחד במודול זה מתנהג כמו רשת קונבולוציה מסורתית, המחדדת פרטים עדינים כגון קצוות ומרקמים סביב העיניים והפה. הנתיב השני משתמש במשפחה חדשה של מודלים הידועים כמודלים במרחב המצב, ובפרט בגרסה בשם Mamba. במקום להשוות כל חלק בתמונה לכל חלק אחר, Mamba "סורקת" לאורך הפנים בכמה כיוונים, ובונה זיכרון של איך התכונות משתנות ממקום למקום. זה מאפשר למערכת ללכוד יחסים ארוכי טווח, כמו כיצד עפעף מורם ופנים מהודקות יחדיו עשויים להעיד על כעס, תוך שליטה בכמות החישוב. הפלטים של שני הנתיבים האלה לאחר מכן מעורבבים ומאוחדים באופן חכם כך שמידע מקומי וגלובלי יוכלו לאינטראקציה.

מיזוג מידע על פני סקאלות שונות

רגשות יכולים להופיע כשטים קטנים באזור מוגדר או כשינויים רחבים על פני כל הפנים. כדי להתמודד עם זה, FERMam משתמשת במבנה מיזוג פירמידלי. היא יוצרת מספר גרסאות של מפת התכונה ברזולוציות שונות, מגסות ועד דקיקות, ומעבדת כל רמה באמצעות מודול שיפור תכונות מבוסס מרחב-מצב אדפטיבי. בכל סקאלה, מודול זה מחזק דפוסים מקומיים חשובים באמצעות קונבולוציה קלת משקל ואז משתמש בסריקה במרחב-מצב מזורזת כדי לקשר אזורים מרוחקים. מנגנון ניתוב פנימי יכול לחזק אותות מאזורים עשירים בהבעה, כגון העיניים והפה, ובו בזמן להמעיט מהסחות דעת מרקע או מפרטים ספציפיים לזהות. לאחר השיפור, המידע מכל הסקאלות מוזג בחזרה, ויוצר סיכום עשיר אך קומפקטי שעובר בסופו של דבר לממיין קטן המכריע איזו רגש מוצג.

Figure 2
Figure 2.

להתאים מודלים חזקים עם הרבה פחות חישוב

המחברים בדקו את FERMam על שלושה מאגרי בדיקה עיקריים לזיהוי הבעות פנים: RAF-DB, AffectNet ו-FERPlus. אוספים אלה מכילים עשרות עד מאות אלפי פנים ממצבים בעולם האמיתי, כולל תנאי תאורה, גילאים ופוזות מגוונים. על מאגרי נתונים אלה, FERMam הגיע לרמות דיוק הקרובות או מיטביות ביחס לשיטות מובילות רבות שתלויות בארכיטקטורות טרנספורמר כבדות. על אחד ממאגרי הנתונים הנפוצים, הביצועים שלה כמעט שווים למערכת הטרנספורמר הטובה ביותר שפורסמה, אך היא משתמשת בערך שליש עד חצי ממספר הפרמטרים ופעולות חישוב פחותות בהרבה. בפועל, משמעות הדבר היא ש-FERMam יכולה לרוץ יותר מפעמיים מהר יותר, לעבד הרבה יותר תמונות בשנייה במצב באצ' ועדיין לשמור על איכות זיהוי גבוהה. מחקרי ablation — ניסויים מבוקרים שבהם מסירים חלקים מהעיצוב — מראים שכל רכיב, מענף נקודות הציון ועד למיזוג הפירמידלי, משחק תפקיד משמעותי באיזון הזה.

מה זה אומר לטכנולוגיות יומיומיות

במילים פשוטות, המחקר מראה שאפשר לבנות מערכת קריאת רגשות שהיא גם חכמה וגם חסכונית. על ידי שילוב שתי נקודות מבט על הפנים — איך היא נראית וכיצד היא מעוצבת — ובאמצעות ארגון מדוד של זרימת המידע במרחב ובסקאלה, FERMam משיגה זיהוי חזק מבלי לדרוש סופרמחשב. זה הופך אותה למועמדת מבטיחה לשימוש בטלפונים, רובוטים ביתיים, מצלמות סיוע לנהג ומכשירים אחרים שצריכים להגיב ברגישות לרגשות בני אדם בזמן אמת. בעוד שבעתיד יש להתמודד עם תנאים קיצוניים יותר כגון הסתמכויות כבדות או תמונות ברזולוציה נמוכה מאוד, FERMam מציינת את הדרך למחשוב מעשי, יעיל ורגיש יותר לאדם.

ציטוט: Gao, C., Ji, X., Zhang, Q. et al. FERMam: a lightweight dual-source and multi-scale fusion framework for facial expression recognition. Sci Rep 16, 13826 (2026). https://doi.org/10.1038/s41598-026-44396-6

מילות מפתח: זיהוי הבעות פנים, בינה מלאכותית רגישה לרגש, למידה עמוקה קלת משקל, מודלים במרחב המצב, אינטראקציה בין אדם למחשב