Clear Sky Science · he
חקר האינטראקציה בין מורים לתלמידים באמצעות מודלים שפתיים גדולים מולטימודליים: חקירה אמפירית
מדוע חשוב לצפות בכיתות באמצעות בינה מלאכותית
כל מי שישב בכיתה יודע שדרך האינטראקציה בין מורים ותלמידים יכולה להכריע בין שעמום לבין למידה אמיתית. יחד עם זאת, קשה להפליא לחקור את ההחלפות הרגעיות הללו: מתצפיות מתעייפים, שיפוטים אנושיים משתנים והקלטות וידאו נהפכות במהירות למעמסה. מאמר זה חוקר כיצד סוג חדש של בינה מלאכותית — מודלים שפתיים גדולים מולטימודליים שיכולים "לראות" תמונות ול"קרוא" טקסט — יכול לסייע לחוקרים ולבתי ספר לפענח את חיי הכיתה המורכבים באופן מהיר ואובייקטיבי יותר.
הפיכת שיעורים אמיתיים לנתוני מחקר
החוקרים התחילו בסרטוני כיתה שגרתיים מבתי ספר יסוד וחטיבת ביניים בסין, הזמינים לציבור בפלטפורמה לאומית לחינוך. מתוך 30 שיעורים חילצו כמעט 2,400 תמונות נייחות שתרמו רישום של רגעים מרכזיים בהוראה ובלמידה. כל תמונה תויגה לפי חמש דפוסי אינטראקציה ברורים: מונחה (המורה מסביר), שיתופי (תלמידים עובדים יחד), שואל‑מגיב (שאלות ותשובות), עצמאי (תלמידים עובדים לבד), ותערוכתי (תלמידים מציגים לפני הכיתה). מומחים לטכנולוגיות חינוך סייעו לחדד את הקטגוריות הללו כדי שיתאימו למה שמשקיפים מנוסים מזהים בכיתות אמיתיות.

להדריך בינה מלאכותית לראות דינמיקת כיתה
לניתוח הסצנות השתמשה הצוות במודל שפת גדול מולטימודלי בשם VisualGLM‑6B, היכול לקבל תמונות וטקסט כקלט. משום שהמודל המקורי אומן בהיקף רחב ולא ספציפית על סיטואציות כיתה, החוקרים "כיוונו" אותו מחדש באמצעות דטה מתוייג. הם אימצו טכניקה בשם LoRA שמתקנת רק מספר קטן של פרמטרים פנימיים של המודל, מה שהופך את האימון ליעיל יותר ועדיין משמעותי. בנוסף עיצבו הנחיות מוקפדות — פרומפטים מובנים שמנחים את המודל לתאר התנהגות של מורה, התנהגות של תלמידים, מאפיינים חזותיים וסוג האינטראקציה בפורמט עקבי, כך שהתוצרים יהיו קלים יותר להשוואה עם שיפוטי מומחים אנושיים.
בניית תוויות טובות יותר עם אנשים ומכונות
יצירת מערך אימונים איכותי דרשה יותר מאשר הצבעה של המודל על סרטונים. ראשית, VisualGLM ייצר תיאורים בסיסיים של כל תמונה. מתויגים אנושיים תיקנו שגיאות והשלים הקשרים חסרים, כמו מי מדבר או האם התלמידים מקשיבים או מדנים. לאחר מכן הזינו את התיאורים המלוטשים הללו ל‑ChatGPT, אשר בהנחיות מותאמות ייצר ניתוחים מבניים בהתאם לחמש קטגוריות האינטראקציה. מומחים עברו שוב על הניתוחים שנוצרו על ידי ה‑AI וערכו אותם. התוצאה הסופית הייתה מאגר נתונים עשיר שבו כל תמונה נשאה תיאור מפורט ואמין של מה שעשו המורים והתלמידים.

עד כמה ה‑AI "קרא" את הכיתה?
כאשר נבדק על 100 תמונות כיתה חדשות שלא נראו קודם, המודל שנכוין זיהה נכון את סוג האינטראקציה ב‑82 אחוז מהמקרים. הוא התבלט בזיהוי מצבים מונחים, עצמאיים ותערוכתיים — כאשר המורה מסביר בצורה ברורה, התלמידים עובדים בשקט לבד, או תלמיד מציג מלפנים. הוא התקשה יותר עם עבודות שיתופיות ושאלות, שבהן שפת גוף ומקומות ישיבה עלולות להיות עמומות גם בפני בני אדם. השוואה מעמיקה יותר בטקסט הראתה שתיאורי המודל כתובים לעתים קרובות מתיישבים היטב עם ניתוחי מומחים, אם כי מדי פעם הוא "הזים" פרטים שלא היו בתמונות או קרא לא נכון מחווה עדינה.
מה זה אומר עבור כיתות עתידיות
לקורא שאינו מומחה, המסר המרכזי הוא שמערכות AI הופכות ליכולות לצפות בכיתות ולסכם כיצד ההוראה והלמידה מתפתחות, ברמות מבנה ועקביות שיהיו קשות לאנשים לשמר על פני אלפי סצנות. למרות שאינן מושלמות — במיוחד לגבי צורות שיחה ושאילתא עדינות — הגישה מראה שמודלים שפתיים גדולים מולטימודליים יכולים כבר לתמוך במחקר חינוכי ובסופו של דבר בכלי משוב לכיתה. ככל שמודלים אלה יכללו קול, מחוות ומאגרים גדולים ומגוונים יותר של נתונים, הם עשויים לסייע למורים לראות דפוסים בפרקטיקה שלהם שהיו נסתרות עד כה, ולהציע נקודת תצפית חדשה על האופן שבו אינטראקציות יומיומיות מעצבות את למידת התלמידים.
ציטוט: Chen, G., Han, G., Niu, J. et al. Exploring teacher-student interaction through multimodal large language models: an empirical investigation. Sci Rep 16, 7602 (2026). https://doi.org/10.1038/s41598-026-38626-0
מילות מפתח: אינטראקציה מורה‑תלמיד, אנליטיקה בכיתה, בינה מלאכותית מולטימודלית, טכנולוגיות חינוך, מודלים שפתיים גדולים