Clear Sky Science · ja
マルチモーダル大規模言語モデルによる教員―生徒相互作用の可視化:実証的検討
AIで教室を観察する意義
教室に座ったことがある人なら、教師と生徒のやり取りが退屈と本当の学びを分けることを知っています。しかし、そうした瞬間ごとのやり取りを研究するのは意外と難しい:観察者は疲れるし、人間の判断はばらつきがあり、ビデオデータはあっという間に膨大になります。本稿では、画像を“見る”ことができ、テキストを“読む”ことができる新しいタイプの人工知能――マルチモーダル大規模言語モデル――が、研究者や学校にとって複雑な教室の営みをより速く、より客観的に理解する助けになりうることを探ります。
実際の授業を研究データに変える
研究者たちは、中国の小中学校の普通の授業ビデオを出発点とし、国内の教育プラットフォームで公開されている素材を用いました。30の授業から、指導と学びの重要な瞬間を捉えた静止画を約2,400枚抽出しました。各画像には、次の5つの分かりやすい相互作用パターンに従ってラベルが付けられました:指導型(教師が説明する)、協働型(生徒が一緒に作業する)、問い答え型(質問・応答)、独立型(生徒が個別に作業する)、提示型(生徒がクラスに発表する)。教育工学の専門家がこれらのカテゴリを精緻化し、実際の観察者が教室で注目する事象に合致するようにしました。

教室のダイナミクスを“見る”AIを育てる
これらの場面を解析するため、研究チームは画像とテキストの両方を入力として扱えるマルチモーダル大規模言語モデル、VisualGLM‑6Bを用いました。元のモデルは幅広く訓練されている一方で教室特化ではなかったため、研究者たちはラベル付き画像を用いて“ファインチューニング”を行いました。具体的にはLoRAという手法を採用し、モデル内部のごく一部のパラメータのみを調整することで、訓練を効率的かつ効果的に行いました。加えて、教師の行動、生徒の行動、視覚的特徴、相互作用の種類を一貫した形式で記述させるための慎重に設計されたプロンプト(指示文)を用意し、出力を人間の専門家の判断と比較しやすくしました。
人間と機械で作るより良いラベル
高品質な学習データを作るには、単にモデルにビデオを与えるだけでは不十分でした。まずVisualGLMが各画像について基礎的な記述を生成しました。人間のアノテーターが誤りを修正し、誰が発言しているか、学生が聞いているのか議論しているのかといった欠けている文脈を補いました。次に、これらの精練された記述をカスタムプロンプトに導かれたChatGPTに与え、5つの相互作用カテゴリに従った構造化された分析を生成させました。専門家がそのAI生成の分析を再検討・編集し、最終的に各画像に教師と生徒の行為を詳細かつ信頼できる形で記した豊富なデータセットが完成しました。

AIはどれほど教室を“読み取れた”か?
未知の100枚の教室画像で評価したところ、ファインチューニングされたモデルは相互作用の種類を82%の確率で正しく特定しました。特に、教師が明確に説明している指導型、学生が静かに個別作業する独立型、学生が前で発表している提示型の認識が得意でした。身体の向きや座席配置があいまいになりやすい協働型や問い答え型については苦戦する傾向があり、人間にとっても解釈が難しい場合がありました。テキストベースの比較を詳しく見ると、モデルの記述は専門家の分析とかなり一致することが多かった一方で、画像にない詳細を“幻覚”したり、微妙な身ぶりを誤読することが時折見られました。
今後の教室にとっての意味
一般読者にとっての核心的メッセージは、AIシステムが教室を観察して授業の展開を構造化して要約する能力を獲得しつつあり、人間だけで何千もの場面を同じ構造と一貫性で評価し続けるのは難しい領域で貢献できる、という点です。微妙な議論や問いかけの形態についてはまだ完璧ではないものの、このアプローチは既に教育研究や将来的には授業へのフィードバックツールの支援に役立ち得ます。これらのモデルが音声や身ぶり、より大規模で多様なデータセットを取り込むようになると、教師が自分の実践に隠れていたパターンを可視化する手助けとなり、日々の相互作用が生徒の学びにどう影響するかを新たな視点で示す可能性があります。
引用: Chen, G., Han, G., Niu, J. et al. Exploring teacher-student interaction through multimodal large language models: an empirical investigation. Sci Rep 16, 7602 (2026). https://doi.org/10.1038/s41598-026-38626-0
キーワード: 教員―生徒相互作用, 教室解析, マルチモーダルAI, 教育テクノロジー, 大規模言語モデル