Clear Sky Science · he

מסגרת היברידית של שחקן–מבקר ו-BERT עבור המלצות קורסים חכמות במערכות למידה מקוונת המודעות לאינטרנט של הדברים

· חזרה לאינדקס

מוצא את הקורס המקוון הנכון

כשהפלטפורמות ללמידה מקוונת מתפוצצות לאלפי שיעורים, רבים הלומדים ניצבים מול בעיה פשוטה אך מתסכלת: איזה קורס לקחת כעת? מאמר זה מתמודד עם העומס על ידי עיצוב מערכת המלצה חכמה שעוקבת אחרי האופן שבו אנשים באמת לומדים בטלפונים, טאבלטים ומחשבים, ואז מציעה קורסים שמתאימים טוב יותר למטרותיהם, לכישוריהם ולהרגליהם לאורך זמן.

Figure 1
Figure 1.

למה למידה מקוונת זקוקה למדריכים חכמים יותר

קורסים מקוונים פתוחים המוניים, או MOOCs, מאפשרים לכל אחד, בכל מקום, גישה לשיעורים איכותיים. אך הצלחת המודל הזה יצרה אתגר חדש: עם כל כך הרבה אפשרויות, קל ללכת לאיבוד. שיטות המלצה מסורתיות, שתלויות בעיקר בדירוגים בכוכבים או בדמיון פשוט בין משתמשים, נאבקות בסביבה המשתנה במהירות הזו. הן מניחות שהטעמים שלך נשארים קבועים ולעתים מתעלמות מאותות עשירים כגון כמה זמן אתה שוהה במפגש, באיזה מכשיר אתה משתמש, או מתי יש נטייה להפסיק. בפלטפורמות הלמידה המחוברות של היום, דפוסים אלה נשמרים כל הזמן ויכולים לחשוף הרבה יותר על מה שישמור את הלומד מעורב.

שילוב בין מה שהקורסים אומרים ומה שהלומדים עושים

המחברים מציעים מערכת היברידית המשלבת שני סוגי מידע: משמעות התוכן בקורסים ושרטוטים מפורטים של התנהגות הלומד. ראשית, הם משתמשים במודל שפה חזק בשם BERT כדי לקרוא כותרות קורסים, תיאורים ותויות, ולהפוך אותם לטביעות אצבע מספריות צפופות הלוכדות הבדלים עדינים בנושא ובסגנון. במקביל, המערכת אוספת אותות אינטראקציה מתוך לוגי רשת ומובייל — כמה לעיתים לוחץ המשתמש, כמה זמן צופה בסרטונים, כמה מהר מתקדם בחומרים, וכמה מאתגר הוא מוצא קורסים שונים. שרשורים אלה מייצגים הגדרה של למידה המודעת לאינטרנט של הדברים, שבה מכשירים מחוברים רבים תורמים לתמונה של הרגלי הלמידה של כל אדם.

איך עוזר הלמידה מלמד את עצמו

במרכז המסגרת עומדת מערכת של למידת חיזוק, שבה הממליץ מתנהג כסוכן שלומד באמצעות ניסוי וטעיה. זוג רשתות בסגנון "שחקן–מבקר" בוחר אילו קורסים להציע ושופט עד כמה הבחירות טובות, ומשפר בהדרגה את האסטרטגיה. המצב המוזן אל הסוכן ממזג את טביעות האצבע של הקורס המבוססות על BERT, סיכומים קומפקטיים של התנהגות הלומד ותכונות נוספות המופקות על ידי מודול מרחק מהולנובסקי (Mahalanobis), שמודד דמיון תוך התחשבות בהתאמות בין מאפיינים רבים. במקום לרדוף אחר לחיצות מהירות, אות התגמול מעודד תוצאות מעמיקות יותר: השלמה של חלק גדול יותר מהקורס, הצטיינות במבחנים וזמן מעורבות משמעותי בחומר. שיטת אימון שנקראת Proximal Policy Optimization שומרת על יציבות הלמידה גם כשהמערכת חוקרת המלצות חדשות.

Figure 2
Figure 2.

בדיקה בפלטפורמות קורסים מהעולם האמיתי

כדי לבדוק האם העיצוב הזה פועל בפועל, המחברים אימנו והעריכו את המודל שלהם על שלוש אוספי קורסים גדולים: MOOCCube, edX ו-NTHU MOOCs. מערכי הנתונים הללו שונים בגודל, בהרכב הנושאים ובמידת הדלילות או הצפיפות של אינטראקציות המשתמשים, מה שהופך אותם לבדיקת עומס טובה. הם השוו את המערכת שלהם עם מספר מתחרים חזקים, כולל שיטות מבוססות רשתות גרף, אשכולות ואדריכלות היברידית עמוקה. על פני כל המערכים ומדדי איכות דירוג סטנדרטיים, המודל החדש ביצע בעקביות טוב יותר, בדרך כלל שיפור בציונים מרכזיים של שתי עד ארבע נקודות אחוז. מחקרי אבולוציה זהירים הראו שכל אלמנט — קידוד טקסט סמנטי, מבנה השחקן–מבקר, כלל האימון PPO ומדד המרחק המודע לקורלציה — תרם להשגים הסופיים.

מה המשמעות של זה ללימוד מקוון בעתיד

במילים פשוטות, המחקר מראה שמנוע המלצות ששומע באמת הן את מה שהקורסים מבטיחים והן את אופן התנהגות הלומדים יכול להכווין אנשים דרך קטלוגים מקוונים צפופים בצורה יעילה יותר. על ידי מעקב לא רק אחרי לחיצות אלא גם אחרי השלמה, הצלחה במבחנים ותשומת לב מתמשכת, המערכת לומדת להציע קורסים שסביר יותר שיתאימו לרמת כל לומד וישמרו אותו במסלול. מאחר שהיא מעוצבת עם מנגנוני פרטיות וניתן להרחיבה בטכניקות כגון למידה פדרטיבית וממשקי הסבר (explainable), המסגרת מציעה דרך מעשית לעבר כיתות מקוונות תומכות ומתואמות יותר, שהן פחות כמו ללכת בלבול ויותר כמו מדריך מיומן שמצביע על הצעד הבא הטוב ביותר.

ציטוט: Chunqin, X., Peixi, W. A hybrid actor–critic and BERT framework for intelligent course recommendation in IoT-aware e-learning systems. Sci Rep 16, 10259 (2026). https://doi.org/10.1038/s41598-026-40952-2

מילות מפתח: המלצת קורסים מקוונת, למידה אלקטרונית מותאמת אישית, למידת חיזוק, נתונים חינוכיים, אנליטיקה של למידה