Clear Sky Science · ar
مجموعة بيانات اصطناعية حفاظية للخصوصية لتحليلات التعلم في التعليم العالي المحسّن بالتكنولوجيا
لماذا تهم بيانات الطلاب الخالية من مخاطر الخصوصية
تجمع الجامعات الآن كميات هائلة من معلومات النقر تلو النقر حول كيفية تعلم الطلاب عبر الإنترنت، من تسجيلات الدخول ومشاهدة الفيديو إلى منشورات المنتديات ونتائج الاختبارات. يمكن أن تساعد هذه البيانات المدرسين في اكتشاف الطلاب الذين يواجهون صعوبة مبكرًا وتصميم دورات أفضل، لكن مشاركتها خارج الحرم الجامعي مقيدة بشدة بموجب القوانين الأخلاقية وقوانين الخصوصية. تصف هذه المقالة طريقة جديدة لفتح تلك القيمة: مجموعة بيانات طلابية كبيرة وواقعية لكن مزيفة تمامًا تهدف إلى حماية الأفراد مع دعم البحث الجاد في الوقت نفسه.

فكرة سجلات الطلاب الشبيهة الآمنة
تقدم الدراسة SynEdu-HEDL، مجموعة تتألف من 20,000 سجل طالب اصطناعي بُنيت لتشبه بيانات الجامعة الحقيقية دون أن تتضمن أي متعلم فعلي. يجمَع كل سجل معلومات خلفية ونشاطًا عبر الإنترنت أسبوعًا بأسبوع على مدار فصل دراسي مكون من 16 أسبوعًا والنتائج النهائية للمقرر. الهدف هو أن تظل الأنماط ذات الأهمية التعليمية مرئية في هذه البيانات المخترعة، مثل كيف يرتبط الالتزام المستمر بالدرجات، بينما تُطمس أي آثار لشخص حقيقي. من خلال إصدار هذه المجموعة بشكل مفتوح، يأمل المؤلف أن يمنح الباحثين ملعبًا مشتركًا لاختبار الأفكار دون التعامل مع سجلات حساسة مطلقًا.
كيف تُنشأ الطلاب الاصطناعيون
لبناء SynEdu-HEDL، عمل الباحث أولًا مع جامعة عامة كبيرة كانت تتتبع بالفعل نشاطات تعلم عبر الإنترنت غنية عبر مئات المقررات. بعد مراجعة أخلاقية صارمة، نُقّيت البيانات الحقيقية وبُسّطت وجُردت من المعرفات المباشرة. ثم استُخدم خط إنتاج توليدي متعدد المراحل. يركز جزء من النظام على المعلومات الثابتة مثل فئة العمر أو التخصص، وجزء آخر يتعلم كيف تتغير سلوكيات الدراسة على مدار أسابيع الفصل، وثالث يتأكد من أن السلوك والنتائج لا يزالان يتحركان معًا بشكل منطقي. على طول العملية، يضيف النظام عشوائية مُعايرة بعناية بحيث لا يمكن إعادة بناء أثر أي فرد بمفرده، بينما تظل مسارات التعلم النموذجية مرئية.

الحفاظ على قوة الخصوصية مع البقاء مفيدًا
حماية الخصوصية أكثر من مجرد إزالة الأسماء. اختبر الفريق SynEdu-HEDL ضد مجموعة من الهجمات المحاكاة التي تحاول التخمين ما إذا كان طالب معين موجودًا في البيانات الأصلية أو إعادة بناء ملفه الشخصي. لم تكن هذه الهجمات أفضل من التخمين العشوائي، وتُظهر الفحوصات الرياضية الرسمية أن مجموعة البيانات تفي بتعريف صارم لمخاطر الخصوصية. وفي الوقت نفسه، قارن المؤلف مئات الإحصاءات بين البيانات الحقيقية والاصطناعية. توافقت التوزيعات الأساسية، والعلاقات بين المتغيرات، وأشكال التفاعل عبر الزمن بشكل وثيق، بما في ذلك الأنماط النادرة ولكن المهمة مثل الانخفاضات المفاجئة في النشاط قبل الفشل.
هل يمكن للباحثين الوثوق في النتائج المستخلصة من بيانات مزيفة
للتحقق من جدوى السجلات الاصطناعية، أعاد الباحث بناء أدوات شائعة لتحليلات التعلم باستخدام SynEdu-HEDL ثم اختبرها على طلاب حقيقيين. كانت نماذج التنبيه المبكر المدربة على البيانات الاصطناعية شبه دقيقة في تحديد الطلاب المعرضين للخطر بالمقارنة مع النماذج المدربة مباشرة على البيانات الحقيقية، وغالبًا ضمن نقاط مئوية قليلة. لا تزال تحليلات العنقدة تجد مجموعات ذات معنى من المتعلمين، وتصرفت النماذج التي تتنبأ بالدرجات أو تُقدّر أثر تغييرات التدريس بشكل مماثل. وربما الأبرز، عندما تم تدريب النماذج أولًا على SynEdu-HEDL ثم تم تعديلها بخفة باستخدام شريحة صغيرة فقط من البيانات الحقيقية، قفز أداؤها بشكل ملموس، وهو إشارة واعدة للكليات التي لا يمكنها بسهولة مشاركة أو تجميع مجموعات بيانات كاملة.
ماذا يعني هذا لأبحاث التعلم المستقبلية
الخلاصة للقراء هي أننا قد لا نضطر بعد الآن للاختيار بين حماية الطلاب وتطوير المعرفة حول كيفية تعلمهم. تُظهر SynEdu-HEDL أنه من الممكن بناء بديل مفصل وقابل للمشاركة للبيانات التعليمية الحقيقية يحافظ على سلامة الطلاب الأفراد بينما يواصل دعم التحليل الجاد. من خلال إتاحة مجموعة البيانات الاصطناعية وبرمجياتها مجانًا، يقدم العمل أداة عملية للدراسات المفتوحة والقابلة للتكرار وقالبًا لمؤسسات أخرى. إذا تبنّت هذه البيانات الاصطناعية الواعية بالخصوصية وتم تحسينها على نطاق واسع، فقد تساعد المربين في جميع أنحاء العالم على اختبار أفكار جديدة، وتحسين دعم الطلاب الضعفاء، ومقارنة الأساليب عبر الحُرُم الجامعية دون تعريض تاريخ أي شخص الشخصي.
الاستشهاد: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8
الكلمات المفتاحية: تحليلات التعلم, البيانات الاصطناعية, خصوصية الطالب, التعليم العالي, البيانات التعليمية