Clear Sky Science · he

השוואת גרעיני קוואנטום ומודלים חזותיים מודרניים לזיהוי הבעות פנים מורכבות

· חזרה לאינדקס

למה קריאת הבעות פנים קשה יותר ממה שנראה

עכשיו הרבה טכנולוגיות מנסות לקרוא את רגשותינו מתוך תמונת מצלמה פשוטה — מכלים לבריאות הנפש ומסנני בטיחות לנהגים ועד לרובוטים חברתיים ומבדקי משחקים. אך הבעות בחיים האמיתיים לעיתים רחוקות מוגדרות כ"מאושרת" או "עצובה" בלבד. הן לעיתים קרובות תערובות — פחד המעורב בהפתעה, עצב עם נגיעה של גועל — שאפילו אנשים לעתים טועים בקריאתן. המחקר הזה שואל שאלה עדכנית: אילו מערכות מחשב מודרניות, כולל שיטות קוואנטיות מתהוות, משיגות את האיזון הטוב ביותר בין דייקנות ומהירות כשמפענחים רגשות מעודנים ומעורבים מפני אנשים בסביבה אמיתית?

Figure 1
Figure 1.

רגשות מעורבים בחיי היומיום

במקום להתרכז ברגשות בסיסיים מתוך ספרי לימוד, החוקרים מתמודדים עם הבעות מורכבות כמו "בהלה מופתעת" או "עצב עם גועל." מצבים מעודנים אלו מופיעים בתדירות גבוהה בהקשרים טבעיים כמו קליניקות, כלי רכב או אינטראקציה של רובוטים חברתיים עם בני אדם. הצוות משתמש במאגר תמונות ידוע בשם RAF-DB, המכיל אלפי פרצופים שצולמו "בטבע" בתנאי תאורה, תנוחות ודמוגרפיה משתנים. הם מצמצמים את ההתמקדות ל-11 קטגוריות מורכבות ומטמיעים חלוקות נתונים ועיבוד מקדים זהים לכל השיטות, כך שביצועי המודלים ישקפו את המודלים עצמם ולא תנאי אימון סלקטיביים.

שבע דרכים ללמד מחשבים לקרוא פנים

המחקר משווה שבעה צינורות עיבוד המייצגים שלוש דורות של טכנולוגיה. ראשית מגיעים היברידים קלאסיים, שמשתמשים ברשתות קונבולוציה מבוססות (ResNet50 ו-VGGFace) כמחלצים תכונות בלבד, ואז מעבירים את ההחלטה הסופית לממיין מבוסס מרווח פשוט בשם SVM. שנית—שתי רשתות עמוקות מודרניות פופולריות: EfficientNetV2-S, רשת קונבולוציה מקוטנת ומותאמת ליעילות, ו-ViT-B/16, טרנספורמר חזותי שמנתח תמונות כחבילות ומשתמש בתשומת לב גלובלית לחיבור אזורים רחוקים בפנים. שלישית—שלושה היברידים קוואנטיים־קלאסיים. במערכות אלו מקודד חזותי סטנדרטי מייצר תכונות נומריות קומפקטיות שמעובדות לאחר מכן על ידי רכיבים בהשראה קוואנטית: מכונת וקטורי תמיכה קוואנטית (QSVM), שיטת k‑השכנים קוואנטית (QKNN), או רשת קונבולוציה קוואנטית (QCNN).

מהירות, דיוק והפשרות ביניהם

במקום לרדוף אחרי מספר דיוק חד־משמעי, החוקרים מודדים בקפידה את זמן חילוץ התכונות, זמן האימון וזמן המיון לכל תמונה, כולם על אותו חומרה. ViT-B/16 מובילה מבחינת דיוק, עם כ-63% סיווג נכון של הבעות מורכבות תוך שמירה על חילוץ תכונות מהיר למדי. EfficientNetV2-S צמודה בשיעור של כ-61% דיוק, אך דורשת זמן רב יותר לחילוץ תכונות. מבין ההיברידים הקוואנטיים, QSVM מבצע הכי טוב, ומשיג כ-55% דיוק עם זמן חילוץ תכונות של בערך דקה — מה שהופך אותו לאטרקטיבי כאשר תקציבי חישוב מוגבלים. QKNN ו-QCNN אפילו חסכוניים יותר בזמן — במיוחד QCNN — אך מקבלים מחיר בדייקנות, נעיים באזור ה-30% האמצעי. היברידים קלאסיים ממוקמים באמצע, שימושיים כקו בסיס שקוף אך בדרך כלל מאחור ביחס לאופציות המודרניות והמועצמות בקוואנטום.

איפה מכונות עדיין מתבלבלות

מבט קרוב על השגיאות מראה שכל המערכות מתקשות באותן דרכים דומות. הבלבולים נוטים להיקבץ בשתי משפחות: פחד מול הפתעה, ועצב מול גועל (לפעמים עם נגיעות של כעס). קטגוריות אלה חולקות דפוסי שרירי פנים דומים — עיניים פקוחות וגבות מורמות לפחד והפתעה, או שפתיים מטה וקמטי אף לעצב וגועל — ולכן טביעות הוויזואליות שלהן חופפות. גם תשומת הלב הגלובלית של ViT והגרעינים המבעירים יותר של QSVM אינם מצליחים להפריד לגמרי בין הבעות שמדמות זו את זו. המחברים טוענים שמודלים עתידיים צריכים להקדיש תשומת לב ממוקדת לאזורים ספציפיים בפנים המקושרים ליחידות פעולה (כמו פינות העיניים, הגבות והאזור סביב האף), לכוונן את מטרות האימון כדי להרחיב מרווחים בין קטגוריות שכנות, ולהשתמש באסטרטגיות האוגמנטציה מאוזנות כדי למנוע התאמה יתר לתערובות השכיחות ביותר.

Figure 2
Figure 2.

מה המשמעות עבור מערכות רגישות רגשית בעולם האמיתי

המחברים אינם טוענים ששיטות קוואנטיות כבר עלו על למידה עמוקה קלאסית. במקום זאת, הם מספקים מפה מדוקדקת של הנוף הנוכחי. אם דיוק מוחלט הוא הדבר החשוב ביותר ומשאבי חישוב בשפע, טרנספורמרים חזותיים עדיין מובילים. כאשר מפתחים חייבים לשקול תקציבי אנרגיה או אחורי זמן — למשל במכשירי edge או בשרתים בעלי חביון נמוך — היברידים קוואנטיים כמו QSVM ו-QKNN מציעים פשרה מבטיחה, מצמצמים זמן חילוץ תכונות ואינפרנציה תוך שמירה על דיוק מכובד. צינורות קלאסיים של CNN בתוספת SVM נשארים כלי מדידה שימושי. על ידי שילוב חשבון חישובי קפדני, ניתוח שגיאות מפורט ובדיקות סטטיסטיות פורמליות, עבודה זו מראה כי קריאת רגשות אנושיים מורכבים אינה רק עניין של דיוק גולמי אלא גם של הקצאת משאבים חכמה והגינות — ושכלים בהשראת קוואנטום עשויים בקרוב להפוך לשותפים מעשיים במאמץ זה.

ציטוט: Florestiyanto, M.Y., Surjono, H.D. & Jati, H. Benchmarking quantum kernels and modern vision models for compound facial expression recognition. Sci Rep 16, 11261 (2026). https://doi.org/10.1038/s41598-026-41514-2

מילות מפתח: זיהוי הבעות פנים, רגשות מורכבים, טרנספורמרים חזותיים, למידת מכונה קוואנטית, מודלים יעילים של בינה מלאכותית