Clear Sky Science · tr

RoBERTa tabanlı bir topluluk modeli kullanarak otomatik soru sınıflandırması ile eğitim değerlendirmesinin geliştirilmesi

· Dizine geri dön

Modern Sınıflar için Daha Akıllı Sınavlar

Her yıl öğretmenler, öğrencilerin yalnızca hangi bilgileri hatırladığını değil, ne kadar derin düşünebildiklerini de ölçmek için binlerce sınav sorusu yazar. Hangi soruların basit ezberlemeyi, hangilerinin gerçek problem çözmeyi ölçtüğünü belirlemek önemlidir; ancak bunu elle yapmak yavaş ve sıklıkla tutarsızdır. Bu makale, sınav sorularını öğrencilerin düşünme becerileri açısından ne kadar talepkar olduklarına göre otomatik olarak ayırabilen bir yapay zeka sistemi sunar; bu, daha adil sınavlar ve öğretime daha fazla zaman vaat eder.

Figure 1
Figure 1.

Düşünme Düzeyleri Neden Önemlidir

Onlarca yıldır eğitimciler, dersleri ve sınavları şekillendirmek için Bloom’un Taksonomisi olarak bilinen bir çerçeveye güvenmiştir. Bu çerçeve, temel bilgileri hatırlamadan başlayıp anlama, uygulama, analiz etme ve değerlendirme yoluyla yeni bir şey yaratmaya kadar altı düşünme katmanını tanımlar. İyi bir sınav bu tam yelpazeyi kapsamalı, en kolay düzeylerde kümelenmemelidir. Ancak her soruyu bu düzeylerden birine sınıflandırmak bir yargı işidir ve farklı öğretmenler arasında görüş ayrılıkları olabilir. Bu adımı otomatikleştirmek, değerlendirmeleri daha nesnel hâle getirebilir ve bir sınavın gerçekten öğrencilerin zihnini zorlayıp zorlamadığını hızlıca ortaya koyabilir, sadece belleği sınamaktan öte.

Bir Makineye Sınav Sorularını Okutmak

Yazarlar sistemlerini RoBERTa adlı güçlü bir dil modeli üzerine kurdular; bu model, metinler üzerinde geniş ölçüde eğitilerek anlamın ince nüanslarını yakalıyor. Model bir sınav sorusunu okuduğunda, her kelimeyi çevresindeki kelimelerle ilişkisini yansıtan zengin sayısal gösterimlere dönüştürüyor. Bu gösterimler daha sonra üç uzmanlaşmış sinir ağına akıyor. Birincisi cümlenin içindeki bilginin sırayla nasıl aktığını inceliyor, ikincisi uzun vadeli desenleri takip ediyor ve üçüncüsü yerel anahtar ifadeleri arıyor. Birlikte, bir sorunun öğrencilerden hatırlama, açıklama, uygulama veya yenilik yapma isteyip istemediğini işaret eden ifade türlerini tespit etmeyi öğreniyorlar.

Farklı Yapay Zeka Bakış Açılarını Birleştirmek

Araştırmacılar tek bir ağa güvenmek yerine oy verme sistemlerinden ödünç alınmış bir strateji kullanarak üçünün hepsini birleştirdiler. Her model bir sorunun düzeyi hakkında kendi tahminini ve bir güven ölçüsünü üretiyor. Bu tahminler daha sonra ortalanıyor, ancak eşit olarak değil—ayrı bir doğrulama kümesinde daha isabetli olduğu kanıtlanan modellere daha fazla ağırlık veriliyor. Bu “ağırlıklı topluluk” yaklaşımı, bir modelin güçlü yanlarının diğerinin zayıflıklarını dengelemesine izin veriyor. Ekip ayrıca verilerini titizlikle hazırladı, kamuya açık bir sınav soruları veri setini dikkatle kontrol edilmiş paraprazlarla genişleterek sistemin daha fazla örnekten öğrenmesini sağladı ve gürültü girmesini önledi.

Ne Kadar İyi Çalışıyor?

Modellerin eğitim sırasında hiç görmediği ayrılmış bir test kümesinde, üç bireysel ağın tamamı soruları yüzde 90’ın üzerinde doğrulukla sınıflandırdı ve araştırma literatüründeki birçok önceki yaklaşımı şimdiden geride bıraktı. Birleştirilmiş topluluk daha da iyi oldu; soruların yaklaşık yüzde 92’sini doğru etiketledi ve daha gelişmiş düzeyler dahil olmak üzere tüm altı düşünme düzeyinde dengeli performans gösterdi. Yapılan istatistiksel bir test, bu gelişmenin en iyi tek model üzerindeki iyileşmenin şansa dayalı olma olasılığının düşük olduğunu doğruladı. Hata analizleri, topluluğun birbirine komşu düşünme düzeyleri arasındaki karışıklığı azalttığını gösterdi; bu düzeyler insanlar için de sıklıkla ayırt edilmesi en zor olanlardır.

Figure 2
Figure 2.

Bu Öğretmenler ve Öğrenciler İçin Ne Anlama Geliyor

Sınav sorularını otomatik olarak düşünme düzeylerine ayırarak, bu sistem öğretmenlerin sınavlarının gerçekten temel ezberden yaratıcı problem çözmeye kadar bir beceri yelpazesini ölçüp ölçmediğini hızla kontrol etmelerine yardımcı olabilir. Örneğin bir sınav çok fazla kolay soru ve daha derin muhakemeyi teşvik eden çok az soru içeriyorsa, sistemi açıklıklar için uyarı verebilir ve okulların zaman içinde daha tutarlı değerlendirmeler tasarlamasına yardımcı olabilir. Araç profesyonel yargının yerini almasa da iş yükünü ve insan önyargısını azaltan hızlı, kanıta dayalı bir başlangıç noktası sunar. İleriye bakıldığında, yazarlar böyle sistemleri çevrimiçi öğrenme platformlarına entegre etmeyi ve öğrencilerin giderek daha fazla yapay zeka ile birlikte çalıştığı bir çağda önem kazanacak yeni beceri türlerine genişletmeyi planlıyorlar.

Atıf: Hamid, M., Malik, S., Saleem, M. et al. Enhancing educational assessment through automated question classification using a RoBERTa-based ensemble model. Sci Rep 16, 13754 (2026). https://doi.org/10.1038/s41598-026-45486-1

Anahtar kelimeler: eğitim değerlendirmesi, Bloom’un Taksonomisi, otomatik soru sınıflandırması, eğitimde derin öğrenme, dil modelleri