Clear Sky Science · tr

Teknoloji destekli yükseköğretimde öğrenme analitiği için gizliliği koruyan sentetik öğrenci veri seti

· Dizine geri dön

Gizlilik riski olmayan öğrenci verisinin neden önemi var

Üniversiteler artık öğrencilerin çevrimiçi nasıl öğrendiklerine dair giriş bazlı (click‑by‑click) büyük miktarda bilgi topluyor; girişler, video izlemeleri, forum paylaşımları ve sınav puanlarından oluşan bu veriler. Bu veriler öğretmenlerin zorlanan öğrencileri erken tespit etmelerine ve daha iyi ders tasarlamalarına yardımcı olabilir, ancak kampüs dışına paylaşım gizlilik yasaları ve etik kurallar nedeniyle çok sıkı biçimde sınırlanmıştır. Bu makale, bu değeri açığa çıkarmanın yeni bir yolunu anlatıyor: bireyleri korurken ciddi araştırmaları desteklemeyi amaçlayan büyük, gerçekçi ama tamamen sahte bir öğrenci veri seti.

Figure 1. Sahte öğrenci kayıtlarının gerçek öğrenme verilerini gizliliği koruyarak nasıl taklit edebileceği
Figure 1. Sahte öğrenci kayıtlarının gerçek öğrenme verilerini gizliliği koruyarak nasıl taklit edebileceği

Güvenli benzer öğrenci kayıtları fikri

Çalışma, gerçek herhangi bir öğreneni içermeyen, gerçek üniversite verilerine benzeyecek şekilde oluşturulmuş 20.000 yapay öğrenci kaydından oluşan SynEdu‑HEDL koleksiyonunu tanıtıyor. Her kayıt; arka plan bilgilerini, 16 haftalık döneme yayılmış haftalık çevrimiçi etkinlikleri ve dersin nihai sonuçlarını bir arada sunuyor. Amaç, istikrarlı katılımın notlarla nasıl ilişkili olduğu gibi eğitime ilişkin önemli örüntülerin bu kurgusal veride korunması; aynı zamanda gerçek bir öğrencinin izinin tamamen silinmiş olması. Bu veri setini açıkça yayımlayarak yazar, araştırmacılara hassas kayıtlara hiç dokunmadan fikirlerini test edecek ortak bir alan sağlamayı umuyor.

Sentetik öğrenciler nasıl oluşturuluyor

SynEdu‑HEDL’i oluşturmak için araştırmacı önce yüzlerce ders boyunca zengin çevrimiçi öğrenme etkinliğini zaten izleyen büyük bir kamu üniversitesiyle çalıştı. Sıkı etik incelemenin ardından gerçek veriler temizlendi, basitleştirildi ve doğrudan tanımlayıcılar çıkarıldı. Sonra çok aşamalı bir üretim hattı kullanıldı. Sistemin bir bölümü yaş aralığı veya bölüm gibi statik bilgilere odaklanıyor, bir diğeri bir dönem boyunca çalışma davranışlarının haftalara göre nasıl değiştiğini öğreniyor ve üçüncü bir bölüm davranış ile sonuçların mantıklı biçimde birlikte hareket etmesini sağlıyor. Tüm süreç boyunca sistem, hiçbir bireyin izinin yeniden yapılamaması için dikkatle kalibre edilmiş rastgelelik ekliyor; buna karşın tipik öğrenme yolları görünür kalıyor.

Figure 2. Gerçek çalışma davranışındaki örüntülerin gizliliğe uygun sentetik verilere nasıl dönüştürüldüğü
Figure 2. Gerçek çalışma davranışındaki örüntülerin gizliliğe uygun sentetik verilere nasıl dönüştürüldüğü

Yararlılığı korurken gizliliğin sağlam tutulması

Gizliliği korumak yalnızca isimleri çıkarmak demek değildir. Ekip, SynEdu‑HEDL’i belirli bir öğrencinin orijinal veride bulunup bulunmadığını tahmin etmeye veya profillerini yeniden oluşturmaya çalışan simüle saldırılardan oluşan bir batarya karşısında test etti. Bu saldırılar rastgele tahminden daha iyi sonuç vermedi ve resmi matematiksel kontroller veri setinin sıkı bir gizlilik riski tanımını karşıladığını gösterdi. Aynı zamanda yazar, gerçek ve sentetik veriler arasındaki yüzlerce istatistiği karşılaştırdı. Temel dağılımlar, değişkenler arasındaki ilişkiler ve zaman içindeki bağlılık şekilleri yakından uyum gösterdi; başarısızlıktan önceki ani düşüşler gibi nadir ama önemli örüntüler de dahil.

Araştırmacılar sahte veriye güvenebilir mi

Sentetik kayıtların gerçekten kullanışlı olup olmadığını görmek için çalışma, SynEdu‑HEDL kullanarak yaygın öğrenme analitiği araçlarını yeniden oluşturdu ve sonra bunları gerçek öğrenciler üzerinde test etti. Sentetik veride eğitilmiş erken uyarı modelleri, genellikle birkaç yüzdelik puan içinde olmak üzere, doğrudan gerçek veride eğitilmiş modellere neredeyse eşit doğrulukta risk altındaki öğrencileri tanımladı. Küme analizleri hâlâ anlamlı öğrenci grupları buldu ve notları tahmin eden veya öğretim değişikliklerinin etkisini kestiren modeller benzer davrandı. Belki en dikkat çekeni, modeller önce SynEdu‑HEDL ile eğitildiğinde ve sonra yalnızca küçük bir gerçek veri dilimiyle hafifçe ayarlandığında performanslarının hızla yükselmesiydi; bu, tam veri setlerini kolayca paylaşamayan veya birleştiremeyen üniversiteler için ümit verici bir işaret.

Gelecek öğrenme araştırmaları için çıkarımlar

Okuyucular için temel sonuç, artık öğrencileri korumak ile onların nasıl öğrendiğine dair bilgiyi ilerletmek arasında seçim yapmak zorunda olmayabileceğimizdir. SynEdu‑HEDL, bireysel öğrencileri güvende tutarken ciddi analizleri destekleyen, ayrıntılı ve paylaşılabilir bir gerçek eğitsel veri yerine geçici veri oluşturmanın mümkün olduğunu gösteriyor. Bu sentetik veri setini ve kodunu ücretsiz erişime açarak çalışma, açık ve tekrarlanabilir çalışmalar için pratik bir araç ve diğer kurumlara bir şablon sunuyor. Yaygın biçimde benimsenip iyileştirildiğinde, böyle gizliliğe duyarlı sentetik veriler dünya çapında eğitimcilere yeni fikirleri deneme, savunmasız öğrenciler için desteği iyileştirme ve kampüsler arası yaklaşımları karşılaştırma olanağı sağlayabilir—hiç kimsenin kişisel geçmişini açığa çıkarmadan.

Atıf: Agal, S. A privacy preserving synthetic learner dataset for learning analytics in technology enhanced higher education. Sci Rep 16, 14772 (2026). https://doi.org/10.1038/s41598-026-44990-8

Anahtar kelimeler: öğrenme analitiği, sentetik veri, öğrenci gizliliği, yükseköğretim, eğitsel veri