Clear Sky Science · he

שחזור פנים באיכות גבוהה מעולם אמיתי מבוסס רשתות אדורסריאליות והתאמת פנים

· חזרה לאינדקס

פנים חדות יותר מתמונות מטושטשות

כל מי שניסה להגדיל תמונת פנים מתוך וידאו אבטחה ישן או תמונה זעירה ברשתות חברתיות יודע את התסכול: ככל שמגדילים יותר, הפנים הופכות לבלוק מטושטש. המאמר הזה מציג גישה חדשה של בינה מלאכותית שיכולה להפוך תמונות פנים באיכות נמוכה מהעולם האמיתי להרבה יותר ברורות, באופן שמשמר טוב יותר את זהותו והבעתו של האדם. לזה יש השלכות ברורות על מצלמות אבטחה, פורנזיקה של תמונות ואפליקציות שיפור תמונות יומיומיות.

Figure 1
Figure 1.

למה כל כך קשה לתקן פנים מטושטשות

להפוך תמונה קטנה ומטושטשת של פנים לחדה זה לא רק עניין של "להוסיף פיקסלים". שיטות מסורתיות נשענו על חוקים או דפוסים מעוצבים בעבודת יד, וגישות עמוקות חדשות יותר למדו לעתים קרובות מתמונות שהושחתו באופן מלאכותי: לוקחים תמונת פנים נקייה וברזולוציה גבוהה, מטישים ומקטינים אותה, ואז מלמדים רשת לבטל את התהליך. הבעיה היא שתמונות מהעולם האמיתי — כמו מצלמות אבטחה או וידאו עם דחיסה — מושחתות בדרכים מבולבלות ובלתי צפויות. הטשטוש, הרעש וארטפקטי הדחיסה נדירים תואמים לדוגמאות הסינתטיות המסודרות שבשימוש לאימון, ולכן מודלים שנראים מצוין במעבדה נכשל לעתים בצילומים אמיתיים. גרוע מכך, הם עלולים לייצר פנים שנראות סבירות אך כבר אינן דומות לאדם המקורי.

לופ למידה דו־כיווני לתמונות מהעולם האמיתי

המחברים בונים על סוג של בינה מלאכותית הנקרא רשת אדורסריאלית יוצרית (GAN), שלומדת ליצור תמונות מציאותיות על ידי הנחת שני רשתות נוירונים זו כנגד זו: אחת יוצרת תמונות, השנייה שופטת עד כמה הן אמיתיות. העיצוב שלהם, בהשראת מודל קודם שנקרא SCGAN, משתמש במבנה "סמי־ציקל" עם שני לופים משלימים. בלופ הקדמי, פנים אמיתיות וברזולוציה גבוהה מושחתות בכוונה על ידי זרוע אחת כדי לייצר גרסאות סינתטיות בקנה־מידה נמוך, ואז משוחזרות על ידי זרוע שיקום משותפת. בלופ האחורי, פנים אמיתיות באיכות נמוכה מהעולם האמיתי משופרות על ידי אותה זרוע שיקום ולאחר מכן מושחתות שוב על ידי זרוע אחרת כדי להידמות לתמונות נמוכות־רזולוציה אמיתיות. על ידי הכרחה של עקביות בשתי הכיוונים — להשחית ואז לשחזר, או לשחזר ואז להשחית — המערכת לומדת מודל ריאלי של איך פנים נהרסות במציאות, ואיך להפוך את התהליך הזה בלי הצורך בזוגות תואמים של תמונות באיכות נמוכה־ומשולבת ואיכות גבוהה אמיתית.

ללמד את הרשת איך פנים באמת נראות

חידוש מרכזי בעבודה זו הוא ללמד את המערכת לא רק להפוך את התמונות לחדות יותר, אלא לכבד את המבנה הבסיסי של פנים אנושיות. לשם כך המחברים משלבים רשת התאמת פנים נפרדת, שתוכננה במקור לאתר סמנים כמו פינות העיניים, קצה האף וקווי המתאר של הפה. רשת ההתאמה הזו חוזה "מפות חום" שמדגישות היכן כל סמן צריך להיות. במהלך האימון, המודל משווה את מפות החום מהתמונה המשוחזרת עם אלו מתמונה אמיתית וברזולוציה גבוהה של אותו אדם, ומעניש אי־התאמות. באופן מכריע, נעשה שימוש במודל התאמה מאומן מראש ואינו דורש תיוג ידני של סמנים לכל תמונת אימון. התוצאה היא סוג של הנחיה גאומטרית: רשת השיפור מונחנת למקם עיניים, אף ופה בעמדות וצורות נכונות, במקום פשוט לצבוע מעל הטשטוש מרקמים גנריים שנראים כפסלוני פנים.

Figure 2
Figure 2.

כמה זה יעיל בפועל?

החוקרים אימנו את המערכת שלהם על אוסף גדול של פנים באיכות גבוהה וקבוצת תמונות נפרדת של פנים אמיתיות באיכות נמוכה ממאגרי נתונים מהעולם האמיתי. לאחר מכן בדקו אותה גם בבנצ'מרקים סינתטיים (שבהם קיימות תמונות מקור נקיות כקרקע־אמת) וגם בתמונות מהעולם האמיתי (שבהן ניתן להסתמך רק על ריאליזם חזותי ומדדים סטטיסטיים). בהשוואה לשיטות קודמות — כולל כלים ידועים כמו Real-ESRGAN, GFPGAN וה־SCGAN המקורי — הגישה החדשה ייצרה תמונות שלא רק נראו טבעיות ופחות מעוותות, אלא גם שיפרו ביצועים במשימות מעשיות. כאשר תמונות משופרות הוזנו לגלאי פנים סטנדרטי ולמודל זיהוי פנים נפוץ (FaceNet), דיוק הגילוי והאימות השתפר באופן ניכר, מה שמעיד שפרטי זהות נשמרו טוב יותר. במקביל, מדדי איכות אוטומטיים הצביעו שהתמונות המיוצרות התקרבו בהתפלגותן לתמונות אמיתיות ברזולוציה גבוהה.

מה זה אומר לשימוש יומיומי

במילים פשוטות, עבודה זו מראה שאפשר לקבל פנים חדות ואמינות יותר מתמונות באיכות ירודה על ידי שילוב שתי רעיונות: ללמוד מודל ריאלי של איך תמונות נהרסות בעולם האמיתי, ולהשתמש במידע על סמני הפנים כדי לשמור על המבנה התקין של הפנים. במקום פשוט "להמציא" פנים שנראות יפות יותר, המערכת מונחנת לשחזר את האדם הנכון עם עיניים, פה וצורה כללית ברורים יותר. זה עושה את השיטה מבטיחה במיוחד ליישומים כמו אבטחה, פורנזיקה ושיקום ארכיוני, שבהם גם בהירות חזותית וגם זהות מדויקת קריטיים, ושבהם גרסאות מקור באיכות גבוהה של התמונות נדירות מאוד.

ציטוט: Fathy, H., Faheem, M.T. & Elbasiony, R. Real-world face super-resolution based on generative adversarial and face alignment networks. Sci Rep 16, 7492 (2026). https://doi.org/10.1038/s41598-026-37573-0

מילות מפתח: שחזור־פנים ברזולוציה גבוהה, רשתות יוצרות־מתחרות (GAN), התאמת פנים, זיהוי פנים, שיקום תמונה