Clear Sky Science · he

נתונים פתוחים, לומדים פרטיים: מערך נתונים מאומת פעילויות וביצועי סטודנטים למטרות ניתוח למידה

· חזרה לאינדקס

מדוע הרגלי הלמידה המקוונת שלכם חשובים

בכל פעם שסטודנט נכנס לקורס מקוון, לוחץ על שקופיות הרצאה או קורא פוסט בדיון, הוא משאיר מאחוריו מסלול של עקבות דיגיטליים. עקבות אלה יכולות לחשוף מי מתקשה, מי פורח ומי שיטות ההוראה שעוזרות באמת. אך הן גם הן מאד אישיות. מאמר זה מתאר מערך נתונים גדול שעבר אנונימיזציה קפדנית של התנהגות הלמידה המקוונת של סטודנטים באוניברסיטה, במטרה לחשוף תובנות לשיפור ההוראה—מבלי לחשוף לומדים בודדים.

Figure 1
Figure 1.

מקליקים בכיתה זהב למחקר

מערך הנתונים מגיע מסטודנטים בשנתם הראשונה בלימודי עסקים ב-KU Leuven שלקחו שני קורסים מבואיים—ראיית חשבון וכלכלה גלובלית—על פני שלוש שנות לימוד, כולל תקופת מגפת ה‑COVID-19 שבה חלק ניכר מן ההוראה הועבר לאונליין. הקורסים השתמשו במערכת ניהול למידה שבה הסטודנטים ניגשו לחומרי קריאה, שקפים, מבחנים ופורומים לדיון. כל אינטראקציה, כגון פתיחת קובץ או צפייה בדיון, נרשמה עם חותמת זמן. בשילוב עם תוצאות המבחנים, היומנים הללו מספקים תמונה עשירה של אופן הלמידה של הסטודנטים על פני שבועות וחודשים, ולא רק את ביצועיהם ביום המבחן.

להגן על הסטודנטים תוך שיתוף נתונים

שיתוף מידע מסוג זה מעלה חששות פרטיות רציניים: רשומות גולמיות כוללות מזהים ייחודיים של סטודנטים, ציונים מדויקים וזמני פעילות מדויקים שעשויים לאפשר זיהוי חוזר של פרטים. כדי למנוע זאת, המחברים יישמו כמה שכבות של הסרת זהות לפני פרסום מערך הנתונים. מזהי הסטודנטים הוחלפו בקודים אקראיים, וקשר חזרה לזהויות האמיתיות הושמד. ציוני המבחנים לא שותפו כמספרים מדויקים אלא הוצבו בטווחים רחבים כגון נכשל, על הגבול, עובר או מצטיין. פרטים על מסלול הלימודים הספציפי של הסטודנט הוסרו, ופריטי תוכן בפלטפורמה המקוונת הוקצו לסוגים כלליים כמו חומרי קורס או הערכות במקום לשמור על שמות הקבצים המקוריים.

Figure 2
Figure 2.

להטשטש בלי לאבד את הסיפור

פשוט הסרת שמות לא מספיקה לפרטיות חזקה, ולכן הצוות גם כיוונן כיצד זמן ומבנה מופיעים בנתונים. לדוגמה, הם הוסיפו סטייה אקראית קטנה של כמה שניות לחותמות הזמן של כל סטודנט. זה מקשה מאוד על התאמת היומנים לאירועים מהעולם האמיתי תוך שמירת סדר הפעולות, שהוא קריטי לחקר דפוסי למידה. הודעות פורום, מזהי מושבים ומזהי תכנים כולם הומרו למספרים אקראיים. החוקרים בדקו אז עד כמה התוצאה אנונימית באמת באמצעות מדד סטנדרטי שנקרא k‑anonymity, שבודק כמה סטודנטים חולקים את אותו צירוף מאפיינים. ברוב המקרים, הנתונים שעברו המרה הפכו את היחידים לחלק מקבוצות גדולות יותר, חיזקו את הגנת הפרטיות.

האם הנתונים עדיין משקפים אמת?

כמובן, אנונימיזציה שימושית רק אם הנתונים נשארים מציאותיים מספיק כדי לתמוך במחקר מהימן. לבחינה זו, המחברים שיקמו עשרות תכונות למידה שבמחקרים קודמים שימשו לגילוי דפוסי למידה חריגים ולחיזוי הצלחה במבחנים. תכונות אלה כוללות תדירות הכניסות למערכת, פיזור מפגשי הלמידה לאורך הסמסטר וכמה פעילים הסטודנטים בפורומים. הצוות השווה את ההתפלגויות של כל תכונה בנתונים המקוריים ובנתונים שעברו הסרת זהות באמצעות בדיקות סטטיסטיות. ברוב המקרים, שתי הגרסאות היו בלתי ניתנות להבחנה, כלומר צעדי הפרטיות לא עיוותו את הסיפור הכללי של אופן הלמידה המקוונת. הבדלים מזעריים נבעו בעיקר משיפור קטגוריזציה של סוגי תכנים, ולא מצעדי פרטיות עצמם.

מה חוקרים יכולים לעשות עם זה

מכיוון שמערך הנתונים מכסה שני קורסים שונים ושרשרת שלוש שנים—כולל השיבוש המשמעותי של המגפה—ניתן להשתמש בו לבחון עד כמה ממצאים עומדים במבחן על פני מקצועות, קבוצות סטודנטים ותנאים משתנים. המידע הזמני המפורט תומך במחקרי תהליך‑מיינינג שעוקבים אחר מסלולים טיפוסיים דרך חומרי הקורס, בעוד שרשומות פורום העשירות יכולות לתמוך בניתוחי רשתות חברתיות של אינטראקציה בין עמיתים. המחברים גם מספקים קוד לשחזור תכונות למידה, מה שמקל על השוואת מודלים ושיטות חדשות לעבודה קיימת ועל חקירת בינה מלאכותית מוסברת בחינוך.

לפתוח דלתות בלי לפתוח זהויות

במונחים פשוטים, מאמר זה מראה שאפשר ללמוד הרבה מהאופן שבו סטודנטים לוחצים וגללים בקורסים מקוונים מבלי לחשוף מי הם. על ידי הטמעה שקולה של הסתרת פרטים אישיים תוך שמירה על הדפוסים החשובים, המחברים מציעים משאב ציבורי שיכול לעזור לאוניברסיטאות להבין ולשפר למידה בקנה מידה רחב. עבור הסטודנטים, זה יכול לתרגם לתמיכה חכמה יותר והוראה רספונסיבית יותר—מבוססת נתונים, אך לא על חשבון פרטיותם.

ציטוט: Tiukhova, E., Van Landuyt, D., Baesens, B. et al. Open data, private learners: a de-identified student activity and performance dataset for learning analytics. Sci Data 13, 548 (2026). https://doi.org/10.1038/s41597-026-06821-3

מילות מפתח: ניתוח למידה, פרטיות הסטודנטים, נתונים חינוכיים, למידה מקוונת, אנונימיזציה של נתונים