Clear Sky Science · he

מערך נתונים סינתטי שומר פרטיות ללמידה אנליטית בחינוך גבוה משופר בטכנולוגיה

· חזרה לאינדקס

מדוע חשוב שיהיו נתוני סטודנטים ללא סיכוני פרטיות

אוניברסיטאות אוספות כיום כמויות עצומות של מידע לחיצה‑אחר‑לחיצה על האופן שבו סטודנטים לומדים אונליין, החל ממחברי כניסה וצפיות בסרטונים ועד פוסטים בפורומים וציון בבחנים. נתונים אלה יכולים לסייע למורים לזהות סטודנטים מתקשים מוקדם ולעצב קורסים טובים יותר, אבל שיתוף מחוץ לקמפוס מוגבל מאוד על ידי חוקי פרטיות ואתיקה. מאמר זה מתאר דרך חדשה לשחרור הערך הזה: מערך נתונים גדול וריאליסטי אך מדויק עד כדי זיוף של סטודנטים, שמטרתו להגן על יחידים ובאותו זמן לתמוך במחקר רציני.

Figure 1. כיצד רשומות סטודנטים מזויפות יכולות לחקות נתוני למידה אמיתיים תוך שמירה על פרטיות
Figure 1. כיצד רשומות סטודנטים מזויפות יכולות לחקות נתוני למידה אמיתיים תוך שמירה על פרטיות

הרעיון של רשומות סטודנטים דומות אך בטוחות

המחקר מציג את SynEdu‑HEDL, אוסף של 20,000 רשומות סטודנטים מלאכותיות שנבנו כדי לדמות נתוני אוניברסיטה אמיתיים מבלי לכלול אף לומד אמיתי. כל רשומה מקבצת מידע רקע, פעילות מקוונת שבוע‑אחר‑שבוע על פני סמסטר של 16 שבועות ותוצאות קורס סופיות. המטרה היא שדפוסים החשובים לחינוך ישמרו בנתונים המומצאים האלה — למשל כיצד מעורבות יציבה מתקשרת לציונים — בעוד שכל סימן של סטודנט אמיתי יויעלם. על ידי פרסום מערך זה באופן פתוח, הכותב מקווה להעניק לחוקרים מגרש משותף לבחינת רעיונות בלי שנדרש מגע עם רשומות רגישות.

כיצד נוצרים הסטודנטים הסינתטיים

כדי לבנות את SynEdu‑HEDL, החוקר עבד תחילה עם אוניברסיטה ציבורית גדולה שכבר עוקבת אחרי פעילות למידה מקוונת עשירה במאות קורסים. לאחר ביקורת אתית קפדנית, הנתונים האמיתיים עובדו, פוצלו ופונו ממזהים ישירים. אחר כך הופעל צנרת יצירה רב‑שלבית. חלק אחד של המערכת מתמקד במידע סטטי כמו טווח גיל או תחום לימוד, חלק אחר לומד כיצד התנהגויות לימוד משתנות במהלך השבועות של הסמסטר, ושלישי דואג לכך שהתנהגות ותוצאות ינועו יחד באופן הגיוני. לאורך כל התהליך המערכת מוסיפה מקריות מכויילת בקפידה כך שלא ניתן יהיה לשחזר את מסלולם של פרטים בודדים, בעוד שדרכי למידה טיפוסיות נשארות גלויות.

Figure 2. כיצד דפוסים בהתנהגות לימודית אמיתית מומרות לנתונים סינתטיים בטוחים לפרטיות
Figure 2. כיצד דפוסים בהתנהגות לימודית אמיתית מומרות לנתונים סינתטיים בטוחים לפרטיות

שמירה על פרטיות חזקה תוך שמירה על תועלת

הגנה על פרטיות היא יותר מהסרה של שמות. הצוות בדק את SynEdu‑HEDL מול סוללה של התקפות מדומות המנסות לשער האם סטודנט מסוים היה בנתונים המקוריים או לשחזר את הפרופיל שלו. התקפות אלה לא ביצעו טוב יותר מהשערה אקראית, ובדיקות מתמטיות פורמליות מראות שהמערך עומד בהגדרה מחמירה של סיכון לפרטיות. במקביל, המחבר השווה מאות סטטיסטיקות בין הנתונים האמיתיים לסינתטיים. התפלגויות בסיסיות, קשרים בין משתנים וצורות המעורבות לאורך הזמן תואמו באופן הדוק, כולל דפוסים נדירים אך חשובים כמו צניחות חדה בפעילות לפני כישלון.

האם חוקרים יכולים לסמוך על תוצאות מ"נתונים מזויפים"

כדי לבדוק האם הרשומות הסינתטיות שימושיות בפועל, המחקר בנה מחדש כלי ניתוח למידה נפוצים באמצעות SynEdu‑HEDL ואז בחן אותם על סטודנטים אמיתיים. מודלים לאיתור אזהרה מוקדמת שאומנו על נתונים סינתטיים היו כמעט מדויקים כמו מודלים שאומנו ישירות על נתונים אמיתיים, לעתים בתוך מספר נקודות אחוזים. ניתוחי אשכולות עדיין מצאו קבוצות משמעותיות של לומדים, ומודלים שמנבאים ציונים או מעריכים את ההשפעה של שינויי הוראה התנהגו בצורה דומה. אולי המפתיע ביותר — כאשר מודלים אומנו תחילה על SynEdu‑HEDL ואז עודכנו באופן קל רק עם פרוסת נתונים אמיתיים קטנה, הביצועים קפצו משמעותית, סימן מבטיח למכללות שאינן יכולות לשתף או לאגד מערכי נתונים מלאים בקלות.

מה המשמעות לכך למחקר למידה עתידי

עבור הקוראים, המסקנה המרכזית היא שאולי לא נחוץ עוד לבחור בין הגנה על סטודנטים ובין קידום הידע על אופן הלמידה שלהם. SynEdu‑HEDL מדגים שאפשר לבנות תחליף מפורט וניתן לשיתוף לנתונים חינוכיים אמיתיים ששומר על בטיחות הסטודנטים היחידניים ובאותו זמן תומך בניתוח רציני. על ידי הפיכת מערך הנתונים הסינתטי וקודו לזמינים בחינם, העבודה מציעה כלי מעשי למחקרים פתוחים וניתנים לשחזור ותבנית למוסדות נוספים. אם יאומץ וימשך לפיתוח רחב, נתונים סינתטיים עם מודעות לפרטיות כאלה יכולים לעזור למורים ברחבי העולם לבדוק רעיונות חדשים, לשפר תמיכה בסטודנטים פגיעים ולהשוות שיטות בין קמפוסים בלי לחשוף היסטוריה אישית של אף אחד.

ציטוט: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8

מילות מפתח: ניתוח למידה, נתונים סינתטיים, פרטיות סטודנטים, השכלה גבוהה, נתוני חינוך