Clear Sky Science · he
זיהוי הבעות פנים באמצעות אינפרנציה השערתית
לקרוא רגשות מהפנים
הפנים שלנו משדרות ברציפות כיצד אנו מרגישים, אבל אותות אלה רחוקים מפשטות. חיוך יכול להסתיר עצבנות, ומבט "נייטרלי" עשוי לשלב שעמום עם עצבנות. המחקר הזה מציג את POSTER-Var, מערכת חדשה של בינה מלאכותית שמטרתה לקרוא רגשות מעורבים ועדינים בדיוק רב יותר מכלי זיהוי הבעות הפנים הקיימים, עם פוטנציאל לשיפור תקשורת אדם־מחשב ומעקב בריאות הנפש והיישומים האחרים.
למה רגשות אינם רק נדלקים או כבויים
רוב מערכות זיהוי ההבעות הקיימות מטפלות ברגשות כקטגוריות נפרדות ומסודרות: שמח, עצוב, כועס וכדומה. בפועל, הפסיכולוגיה מראה שהבעות הן תערובות של רגשות בסיסיים, כאשר עוצמות שונות מופיעות בו זמנית בפנים יחידות. דגמי בינה מלאכותית מסורתיים בדרך כלל מאלצים כל תמונה להתאים לתווית אחת סופית, ומתעלמים מן הבלתי־ודאות ומהאופי הרציף והמדרגי של התחושות. זה עושה אותם שבירים בתנאים מעורפלים של העולם האמיתי, שבהם תאורה, תנוחה ואפילו תוויות אנושיות לא עקביות מוסיפים רעש. המחברים טוענים שמערכות עתידיות חייבות להכיר בכך שפנים יכולות לרמז על מספר רגשות בעוצמות שונות, ושהמחשב צריך להסיק במונחים הסתברותיים במקום החלטות כן-או-לא.

לתת למודל לחבק אי־ודאות
כדי להתאים טוב יותר למציאות המעורפלת הזו, הצוות בונה על טכניקה ממודלים הסתברותיים מודרניים שנקראת אינפרנציה השערתית. במקום להפיק ציון יחיד וקבוע לכל רגש, מערכת POSTER-Var ממפה תווי פנים אל "מרחב סמוי" שבו כל רגש מיוצג על ידי התפלגות הסתברותית, בדרך כלל בצורת עקומת פעמון. במהלך האימון המערכת שואבת דגימות מההתפלגויות שלמדה, מה שמעודד אותה לחקור מגוון פרשנויות אפשריות לכל פנים. בזמן המבחן, עם זאת, היא פשוט משתמשת במרכזי ההתפלגויות האלה כדי לתת תחזיות יציבות. באופן מהותי, POSTER-Var מבטלת שכבות דקודינג ומחוברות מלאות נוספות שהשתמשו בעיצובים השערתיים קודמים, ומתייחסת לייצוג ההסתברותי עצמו כאות ההחלטה הסופי. ראש סיווג מבוסס אינפרנציה השערתית ממוטבת זה — VICH — מאפשר למודל לכמת אי־ודאות תוך שמירה על יעילות ודיוק.
לראות את הפנים ברמות סקאלה מרובות
זיהוי הבעות דורש גם התבוננות בחלקים שונים של הפנים וברמות פירוט שונות: קימור הפה, צורת העיניים והקונפיגורציה הכוללת כולם חשובים. POSTER-Var מרחיב מערכת קודמת חזקה (POSTER++) על ידי שיפור האופן שבו תכונות מרובות־היקף משולבות. היא משתמשת במספר מנגנוני תשומת לב כדי למזג מידע מאחראי תמונה סטנדרטי ומגלה סימני פנים (facial landmark detector) שעוקב אחר נקודות מפתח כמו פינות העין וקצוות הפה. "הטמעת שכבה" מסמנת כל מפה תכונה בעמדתה וברמתה הסמנטית בפירמידת העיבוד, ועוזרת לרשת להבין מאיפה כל פרט מגיע. טרנספורמציות לא־לינאריות ובלוק תשומת לב משופר לערוצים מאזנים מחדש את התכונות הללו, מחזקות את אלו שמספקות מידע משמעותי ביותר לזיהוי הבעות ומדכאות הסחות דעת כגון אי־סדר ברקע או מאפייני זהות ספציפיים.

מבחן המערכת
החוקרים העריכו את POSTER-Var על שלוש מערכות נתונים מהעולם האמיתי הנפוצות: RAF-DB, AffectNet ו‑FER+. אוספים אלה כוללים מאות אלפי פנים שצולמו בתנאים בלתי מבוקרים, כל אחת מתוייגת עם אחד מכמה רגשות בסיסיים. בכל המדדים, POSTER-Var השיגה או התאימה לשיטות המתקדמות ביותר או אף עלתה עליהן. למשל, היא הגיעה לכ־93% דיוק ב‑RAF-DB וכ־92% ב‑FER+, ושיפרה במעט תוצאות בגרסאות 7 ו‑8 הסיווג של AffectNet. ניסויי אבולוציה (ablation), שבהם הורדו רכיבים בודדים, הראו שגם ההטמעה של השכבה וגם הראש ההשערתי תרמו באופן ניכר לביצועים, כאשר הרכיב ההשערתי היה מועיל במיוחד במערכי נתונים קשים ולא מאוזנים. ויזואליזציות של מפות תשומת הלב חשפו ש‑POSTER-Var מתמקדת באזורים רחבים ומשמעותיים יותר בפנים מאשר הבסיס, ותצוגות של התפלגויות הרגש שהיא למדה המחישו כיצד היא מבדילה טוב יותר, למשל, בין "עצב" ל"נייטרלי" במקרים מעורפלים.
מה זה אומר ליישומים בעולם האמיתי
במונחים פשוטים, POSTER-Var מלמדת מכונות להתייחס להבעות פנים פחות כמו רמזורים ויותר כמו תחזיות מזג אוויר: יכול להיות מצב רוח עיקרי "שמשי" עם רמזים מפוזרים של "מעונן", והתחזית צריכה להכיר באי־ודאות. על ידי דוגלת במידולים של התפלגויות מלאות על רגשות במקום ניחוש יחיד, המערכת נעשית עמידה יותר לרעש בתוויות ולהבעות עדינות ומעורבות. המחקר מציע כי גישות הסתברותיות כאלה יכולות לשמש בסיס לדור הבא של טכנולוגיות רגישות־רגש — מהעוזרים הווירטואליים והרובוטים החברתיים ועד לכלים למחקר התנהגותי — שיתאימו טוב יותר לחיים העמוסים והמורכבים שפנינו רק חושפות באופן חלקי.
ציטוט: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x
מילות מפתח: זיהוי הבעות פנים, בינה מלאכותית לרגש, מילוליזציה הסתברותית, אינפרנציה השערתית, חזון ממוחשב