Clear Sky Science · he
אלגוריתמים חזותיים מבוססי למידה עמוקה לזיהוי זהות ופעולה בקורסים מעשיים בהנדסה
לצפות מי עושה מה בשיעורים מעשיים
במרבית מעבדות ההנדסה התלמידים נעים בחלל, מחברים חוטים, מקלידים קוד ובודקים את הטלפון שלהם. עבור המורים קשה לדעת מי מבצע איזו מטלה, ועבור מחשבים הסצנה העמוסה קשה אף יותר לקריאה. במחקר זה מוצגת מערכת בינה מלאכותית שיכולה לזהות באופן אמין הן את זהות התלמידים והן פעולות פשוטות במעבנת הוראה אמיתית, גם כאשר אנשים מסתובבים מהמצלמה או משנים את עמדתם.

מדוע בדיקות פנים רגילות אינן מספיקות
זיהוי פנים מודרני עובד היטב כשהאנשים יושבים במקום ומסתכלים לכיוון המצלמה, כמו באולם הרצאות או בשער ביטחון. בקורסים מעשיים בהנדסה, לעומת זאת, התלמידים נוטים להתכופף מעל שולחנות, להסוב את ראשם ולהסתובב סביב ציוד. בתנאים אלה זיהוי הפנים הסטנדרטי לעתים מאבד עקיבה כיוון שהוא נשען על מבטי חזית ברורים. שיטות זיהוי מחדש של אנשים המתמקדות במראה הגוף כוללות בעיות דומות, כי צורת הגוף והביגוד נראים שונים מאוד כאשר התלמידים נשענים, מסתובבים או נעים בחדר.
שילוב פנים, גופים ותנועה
המחברים מציעים מסגרת המשלבת מידע מתמונות של פנים וחלק עליון של הגוף ומעדכנת את הידע שלה בהתפתחות השיעור. לפני השיעור כל תלמיד מספק למערכת תמונת פנים חזיתית ברורה. בתחילת המפגש התלמידים מתחברים על ידי מבט אל המצלמה בעמידה במעבדה. המערכת מתאימה את פניהם לתמונות השמורות ובמקביל שומרת תמונת גוף לכל מי שנכנס. התכונות הראשוניות של הפנים והגוף מהוות נקודת התחלה למעקב אחר כולם במהלך השיעור.
בניית זיכרון חי לכל תלמיד
כאשר השיעור המעשי מתחיל, המערכת מנתחת וידאו בקצב של כעשר עד חמש-עשרה פריימים לשנייה. בכל פריים היא מגלה פנים וגופים ומחלצת תיאורים מספריים קומפקטיים של כל אחד מהם. אם פנים בפריים הנוכחי תואמות את הפנים הרשומות אך התאמת הגוף חלשה, המערכת מניחה שהפנים מהימנות ומוסיפה את מראה הגוף החדש לספריית גוף דינמית. במצבים אחרים, כאשר התאמת הגוף טובה ומיקומו משתנה רק במעט בין פריימים בעוד הפנים נעדרות באופן קצר, המערכת מפרשת זאת כהסתובבות ראש מהירה ומוסיפה את מבט הפנים החדש לספריית פנים דינמית. עם הזמן כל תלמיד מיוצג על ידי דוגמאות רבות של פניו וגופו בזוויות, בקני ישור ובתנאי תאורה שונים, מה שהופך את הזיהוי בפריימים הבאים לאמין יותר.

ללמד את המחשב לשים לב לפעולות פשוטות
מעבר לזהות מי נמצא בחדר, המדריכים מתעניינים גם במה שהתלמידים עושים. החוקרים הוסיפו רכיב לזיהוי התנהגות המתמקד בכמה פעילויות מרכזיות במעבדה, כגון תכנות בלפטופ, חיבור חוטים או שימוש בטלפון. כלי נפרד מצייר שלד בסגנון דמות מקש (stick figure) מעל הגוף, ותופס את סידור הראש, הגו והגפיים. הצוות מאמן לאחר מכן ממוּד בכבדות קל המשקל שמסווג תנוחות מבוססות שלד. מכיוון שהמודל מנתח קווי מתאר מפושט במקום תמונות מלאות, הוא מסוגל לעבד יותר מעשרים פריימים לשנייה — מהיר מספיק כדי לעמוד בקצב מצלמות כיתה טיפוסיות.
בדיקת המערכת במעבדה אמיתית
המסגרת הוערכה בקורס שליטה במנועי סרוו עם שישה תלמידים שעבדו על מטלות כגון חיווט רכיבים, איפוס המנוע למוצא וכתיבת תוכניות תנועה. המחברים השוו בין שלוש אפשרויות: זיהוי פנים בלבד, זיהוי מחדש מבוסס גוף בלבד, והשיטה הדינמית המשולבת שלהם. בתקופת ההתחברות ובמהלך כל המפגש המעשי הגישה המשולבת עלתה בבירור על השתיים האחרות, והשיגה דיוק גבוה יותר וניקוד כולל טוב יותר בקביעת מי הופיע בכל פריים וידאו. עבור מודול הפעולה, דיוק הזיהוי נע בין ככשליש לשעתיים-שליש עבור תכנות ועד למעל ארבע חמישיות עבור שימוש בטלפון, למרות מערך אימון יחסית קטן.
מה משמעות הדבר לכיתות העתיד
לקורא שאינו מומחה, המסר המרכזי הוא שהמחקר מראה כיצד שילוב רמזים חזותיים שונים ועדכון שלהם לאורך זמן יכול לסייע למחשבים לעקוב מי הוא מי במעבדת הוראה עמוסה, ובו בזמן לזהות כמה התנהגויות פשוטות. המערכת עדיין מתקשה מול מבטי צד חזקים של הפנים ובמול מגוון מלא של תנועות התלמידים, אך המחברים מציעים דרכים לשפר אותה באמצעות מודלי פנים תלת־ממדיים ונתוני אימון עשירים יותר. הם גם מדגישים את הצורך באמצעי הגנה על הפרטיות, כגון שמירה רק של התכונות הנחוצות והצפנת התמונות המקוריות. יחד, הרעיונות הללו מצביעים לכיוון סביבות מעבדה שבהן מחשבים תומכים בשקט במורים על ידי מעקב אחר השתתפות ופעילות ללא הפרעת הלמידה המעשית.
ציטוט: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6
מילות מפתח: מעקב תלמידים, זיהוי פנים, זיהוי פעולות, חינוך הנדסי, ראייה ממוחשבת