Clear Sky Science · tr
Çok modlu büyük dil modelleriyle öğretmen-öğrenci etkileşimini incelemek: ampirik bir araştırma
AI ile sınıfları izlemek neden önemli
Bir sınıfta oturmuş olan herkes bilir ki öğretmenlerle öğrencilerin nasıl etkileştiği, can sıkıntısı ile gerçek öğrenme arasındaki farkı yaratabilir. Yine de bu an‑an değişen etkileşimleri incelemek şaşırtıcı derecede zordur: gözlemciler yorulur, insan yargıları farklılık gösterir ve video verileri çabucak bunaltıcı hale gelir. Bu makale, görüntülere “bakan” ve metinleri “okuyan” çok modlu büyük dil modelleri gibi yeni bir yapay zeka türünün, araştırmacıların ve okulların karmaşık sınıf hayatını daha hızlı ve daha nesnel bir şekilde anlamalarına nasıl yardımcı olabileceğini araştırıyor.
Gerçek dersleri araştırma verisine dönüştürmek
Araştırmacılar, ulusal bir eğitim platformunda halka açık olan Çin ilkokul ve ortaokullarından alınmış sıradan sınıf videolarıyla işe başladı. 30 dersten, öğretim ve öğrenmenin kilit anlarını yakalayan yaklaşık 2.400 durağan görüntü çıkardılar. Her görüntü, beş kolay kavranır etkileşim desenine göre etiketlendi: rehberlik edilen (öğretmenin açıklama yapması), işbirlikçi (öğrencilerin birlikte çalışması), sorgulama (sorma ve yanıtlama), bağımsız (öğrencilerin tek başına çalışması) ve sergileyici (öğrencinin sınıfa sunum yapması). Eğitim teknolojisi uzmanları, bu kategorilerin deneyimli gözlemcilerin gerçek sınıflarda aradığı ölçütlerle uyumlu olması için düzenlemeler yaptı.

Bir AI’ya sınıf dinamiklerini görmeyi öğretmek
Bu sahneleri analiz etmek için ekip, hem görüntü hem de metni girdi olarak alabilen VisualGLM‑6B adlı çok modlu bir büyük dil modeli kullandı. Orijinal model geniş çapta ve özel olarak sınıflar üzerinde eğitilmediği için araştırmacılar, etiketli görüntülerini kullanarak modeli “ince ayar” yaptılar. Eğitim sürecini daha verimli fakat yine de güçlü kılan LoRA adlı yalnızca modelin iç parametrelerinin küçük bir bölümünü ayarlayan bir teknik benimsediler. Ayrıca modelin öğretmen davranışını, öğrenci davranışını, görsel özellikleri ve etkileşim türünü tutarlı bir formatta betimlemesi için dikkatli istemler—yapısal talimatlar—tasarladılar; böylece çıktı insan uzman yargılarıyla karşılaştırılmasını kolaylaştıracaktı.
İnsanlar ve makinelerle daha iyi etiketler oluşturmak
Yüksek kaliteli bir eğitim seti yaratmak, modeli videolara yönlendirmekten daha fazlasını gerektirdi. İlk olarak VisualGLM her görüntü için temel betimlemeler üretti. İnsan etiketleyiciler hataları düzeltti ve konuşanın kim olduğu ya da öğrencilerin dinleyip dinlemediği veya tartışıp tartışmadığı gibi eksik bağlamları doldurdu. Ardından bu düzeltilmiş betimlemeler, özel istemlerle yönlendirilen ChatGPT’ye verildi; ChatGPT beş etkileşim kategorisini takip eden yapısal analizler üretti. Uzmanlar bu yapay zeka tarafından üretilen analizleri yeniden gözden geçirip düzenledi. Sonuçta, her görüntünün öğretmenlerin ve öğrencilerin ne yaptıklarına dair ayrıntılı, güvenilir bir anlatı taşıdığı zengin bir veri kümesi ortaya çıktı.

AI sınıfı ne kadar “okudu”?
Model, daha önce hiç görmediği 100 yeni sınıf görüntüsü üzerinde test edildiğinde, etkileşim türünü yüzde 82 doğrulukla belirledi. Öğretmenin açıkça açıklama yaptığı rehberlik edilen, öğrencilerin sessizce kendi başlarına çalıştığı bağımsız ve öğrencinin önde sunum yaptığı sergileyici durumları tanımada en iyi performansı gösterdi. Beden dili ve oturma düzeninin insanlar için bile belirsiz olabildiği işbirlikçi çalışma ve sorgulama durumlarında daha çok zorlandı. Metin tabanlı daha derin bir karşılaştırma, modelin yazılı betimlemelerinin sıklıkla uzman analizleriyle oldukça iyi eşleştiğini gösterdi; ancak zaman zaman görüntülerde olmayan ayrıntıları “halüsinasyon” halinde ürettiği veya ince bir jesti yanlış okuduğu görüldü.
Geleceğin sınıfları için ne anlama geliyor
Günlük okuyucu için temel mesaj, AI sistemlerinin sınıfları izleyip öğretim ve öğrenmenin nasıl gerçekleştiğini, binlerce sahnede insanların sürdürebileceğinden daha fazla yapı ve tutarlılıkla özetleme yeteneğine doğru ilerliyor olmasıdır. İnce formlu tartışma ve sorgulama biçimleri için mükemmel olmasa da—özellikle bu alanlarda hâlâ sınırlamaları var—bu yaklaşım çok modlu büyük dil modellerinin eğitim araştırmalarını ve nihayetinde sınıf geribildirim araçlarını destekleyebileceğini gösteriyor. Bu modeller sese, jestlere ve daha geniş, daha çeşitli veri kümelerine dahil oldukça, öğretmenlerin uygulamalarında daha önce görünmeyen desenleri görmelerine yardımcı olabilir ve gündelik etkileşimlerin öğrencilerin öğrenimini nasıl şekillendirdiğine dair yeni bir bakış açısı sunabilir.
Atıf: Chen, G., Han, G., Niu, J. et al. Exploring teacher-student interaction through multimodal large language models: an empirical investigation. Sci Rep 16, 7602 (2026). https://doi.org/10.1038/s41598-026-38626-0
Anahtar kelimeler: öğretmen-öğrenci etkileşimi, sınıf analitiği, çok modlu yapay zeka, eğitim teknolojisi, büyük dil modelleri