Clear Sky Science · he
FaceScanPaliGemma — דגמי ראייה-שפה מרובי-סוכנים לזיהוי תכונות פנים
מדוע קריאת פנים חכמה יותר חשובה
בכל יום מצלמות לוכדות אינספור תמונות של אנשים: בפוסטים ברשתות החברתיות, בפגישות מקוונות ובמרחבים ציבוריים. מאחורי הקלעים מערכות מחשב מנסות יותר ויותר "לקרוא" את הפנים האלה, לנחש תכונות כמו גיל, מצב רוח ותכונות נוספות. כלים כאלה יכולים לתמוך בשירותים שימושיים — מסיוע לנגישות ועד מחקר רפואי — אך הם מעלים גם שאלות עמוקות לגבי הגינות, פרטיות והטיות. מאמר זה מציג את FaceScanPaliGemma, מערכת בינה מלאכותית חדשה שנועדה לא רק לשפר את יכולת המחשב לקרוא פנים, אלא גם לשים דגש מיוחד על מי עלול להישאר מחוץ או להיות מופעל עליו יחס לא הוגן.
גישה חדשה מבוססת צוות לקריאת פנים
רוב מערכות ניתוח הפנים בעבר נשענו על מודל בודד וגדול הניסיון לבצע את כל המשימות בו־זמנית: לזהות גזע, מין, קבוצת גיל ורגש בתמונה. FaceScanPaliGemma בוחרת מסלול שונה. היא משתמשת "בצוות" של מודלים קטנים וממוקדים שעובדים יחד, כאשר כל אחד מהם מתמחה במשימה אחת בלבד. המודלים הללו מבוססים על עיצוב ראייה–שפה, כלומר הם יכולים להסתכל על תמונה ולעבד גם בקשת טקסטואלית לגבי מה שהמשתמש רוצה לדעת. לדוגמה, המערכת יכולה לענות על שאלות כמו "מה קבוצת הגיל והרגש של הילד בתמונה זו?" על ידי שילוב בין מה שהיא רואה לבין מה שנשאלת.

כיצד עובדת מערכת מרובת הסוכנים
במרכז FaceScanPaliGemma נמצא סוכן ניתוח שקורא את בקשת המשתמש ומפרק אותה לשלבים. אם השאילתה מזכירה אדם מסוים בסצנה עמוסה — למשל "הנער שמחזיק כדור" או "האישה ממוצא מזרח תיכוני" — סוכן הניתוח קורא קודם סוכן לאיתור פנים כדי לאתר את הפנים הרלוונטיות. לאחר מכן הוא מעביר את הפנים החתוכות לאחד או יותר מסוכני־מומחה המוקדשים לגזע, מין, קבוצת גיל או רגש. כל מומחה הוא גרסה מותאמת-דק של מודל הראייה–שפה PaliGemma של גוגל, עדכנית באמצעות כוונון על תמונות פנים מתויגות כדי להיות מדויק למשימה הבודדת שלו. סוכן הניתוח משלב בסופו של דבר את החלקים לתשובה התואמת את הבקשה המקורית.
בניין על מאגרי פנים גדולים וצודקים יותר
להכשרה ובדיקת הסוכנים הסתמכו החוקרים על שני מאגרי נתונים ציבוריים מרכזיים. הראשון, FairFace, מורכב מיותר ממאה אלף תמונות פנים מאוזנות בקפדנות בין מספר קבוצות גזעיות וכולל תוויות למין וטווחי גיל מפורטים. עיצוב זה מסייע להפחית בעיה נפוצה של עודף דוגמאות מקבוצות מסוימות, כגון פנים לבנות, ביחס לאחרות. המאגר השני, AffectNet, מכיל מאות אלפי תמונות מתויגות בשמונה הבעות בסיסיות של הפנים — מאושר עד בוז — שנאספו מהאינטרנט בשפות רבות. על ידי כוונון דגמי PaliGemma על מאגרים אלה, הצוות הפך כלי ראייה–שפה כללי לארבעה מומחים ממוקדים לזיהוי גזע, מין, קבוצת גיל ורגש.
עד כמה המערכת מדויקת
בבדיקות נרחבות הושווה FaceScanPaliGemma למערכות בינה מלאכותית ידועות וכוללניות כמו GPT-4o ו-Gemini, וכן למודלים קלאסיים של למידה עמוקה המבוססים רק על עיבוד תמונה. בזיהוי גזע, המערכת החדשה הגיעה לכדי כ-81% דיוק בעת קיבוץ כמה קטגוריות גזעיות — שיפור ברור על פני מערכות ראייה קודמות ודגמי ראייה–שפה סטנדרטיים. היא השיגה כ-96% דיוק בזיהוי מין, וכ-80% לקבוצות גיל רחבות יותר, שוב תואם או עולה על קווים בסיס חזקים. זיהוי רגשות התגלה כאתגרי יותר: כאן FaceScanPaliGemma הגיעה לכדי כ-59% דיוק — טוב יותר מדגמי ראייה–שפה מאומנים מראש וכמה שיטות קלאסיות, אך עדיין נמוך מהמערכות הטובות ביותר שמוקדשות לרגשות ואומנו על מיליוני תמונות. המחברים גם בחנו כיצד הביצועים משתנים בין קבוצות דמוגרפיות שונות ומצאו פערים קטנים עבור מין אך פערים גדולים יותר עבור כמה גזעים והבעות עדינות, אשר הם מקשרים לקושי הטבוע בשיפוט תכונות מראות־חיצוניות.

הגינות, סיכונים ושימוש במציאות
מכיוון שזיהוי תכונות פנים נוגע בזהות, פרטיות ואפליה, המחברים מקדישים תשומת לב מיוחדת לאתיקה. הם מדגישים ש-FaceScanPaliGemma אומנה על מאגרי מחקר ציבוריים ושהמודלים משוחררים עם הנחיות ברורות נגד שימוש לרעה בתחומים כמו מעקב המוני או קבלת החלטות אוטומטית. עיצוב מרובת הסוכנים גם מסייע: בהפרדת גזע, מין, גיל ורגש למרכיבים נפרדים, קל יותר למדוד ולהפחית הטיה בכל אחד מהם באופן עצמאי. עם זאת, למערכת יש מגבלות. היא נבחנה בעיקר על מאגרים מדדיים ולא על תמונות מציאותיות ומסורבלות, והיא עדיין אינה מסבירה כיצד היא מגיעה להחלטותיה — שניהם זירות חשובות לעבודה עתידית.
מה משמעות העבודה הזו קדימה
במונחים פשוטים, המחקר מראה כי צוות מתואם של מודלי בינה מלאכותית קטנים וממוקדים יכול לקרוא פנים בדיוק ובגמישות טובים יותר מרבים מהמערכות הגדולות והבודדות, במיוחד כשהם מונחים על ידי נתוני אימון נבחרים בקפידה. FaceScanPaliGemma מהירה וזולה יותר לתפעול מרבים מהמודלים הענקיים, ועדיין מתחרה או עוקפת אותם במספר משימות מרכזיות. יחד עם זאת, המחקר מדגיש שקריאת תכונות אנושיות מפנים נותרת בלתי ודאית ובעלת סיכונים אתיים, במיוחד עבור רגשות וקבוצות חזותיות עמומות. המחברים טוענים כי ההתקדמות העתידית צריכה לשלב שיפורים טכניים — כגון נתוני אימון טובים יותר ולמידה בשלבים — עם אמצעי הגנה חזקים יותר סביב הגינות, פרטיות ושקיפות לפני פריסה נרחבת של מערכות כאלה.
ציטוט: AlDahoul, N., Tan, M.J.T., Kasireddy, H.R. et al. FaceScanPaliGemma multi-agent vision language models for facial attribute recognition. Sci Rep 16, 10246 (2026). https://doi.org/10.1038/s41598-026-39584-3
מילות מפתח: זיהוי תכונות פנים, דגמי ראייה-שפה, בינה מלאכותית מרובת סוכנים, מאגר הנתונים FairFace, זיהוי רגשות