Clear Sky Science · ru

Исследование взаимодействия учителя и ученика с помощью мультимодальных больших языковых моделей: эмпирическое исследование

· Назад к списку

Почему наблюдение за уроками с помощью ИИ важно

Каждый, кто когда‑либо сидел в классе, знает: то, как учитель и ученики взаимодействуют, может решить, будет ли урок скучным или действительно познавательным. Тем не менее изучать эти момент‑за‑моментом обмены удивительно трудно: наблюдатели устают, человеческие суждения расходятся, а видеоданные быстро становятся громоздкими. В этой статье рассматривается, как новый тип искусственного интеллекта — мультимодальные большие языковые модели, которые умеют «смотреть» на изображения и «читать» текст — может помочь исследователям и школам быстрее и объективнее понимать сложную жизнь класса.

Преобразование реальных уроков в исследовательские данные

Исследователи начали с обычных видеозаписей занятий в китайских начальных и средних школах, общедоступных на национальной образовательной платформе. Из 30 уроков они извлекли почти 2400 статичных изображений, фиксирующих ключевые моменты преподавания и обучения. Каждое изображение было помечено в соответствии с пятью легко понятными шаблонами взаимодействия: направленное (учитель объясняет), коллективное (учащиеся работают вместе), вопросно‑ответное (задавание и ответы на вопросы), самостоятельное (учащиеся работают в одиночку) и демонстрационное (учащиеся выступают перед классом). Эксперты по образовательным технологиям помогли уточнить эти категории, чтобы они соответствовали тому, на что обращают внимание опытные наблюдатели в реальном классе.

Figure 1
Figure 1.

Обучение ИИ распознавать динамику класса

Для анализа этих сцен команда использовала мультимодальную большую языковую модель VisualGLM‑6B, которая принимает на вход и изображения, и текст. Поскольку исходная модель была обучена в широком спектре задач, но не специально на школьных сценах, исследователи «дообучили» её на своих размеченных изображениях. Они применили технику LoRA, которая меняет лишь небольшое число внутренних параметров модели, делая обучение более эффективным при сохранении силы модели. Также были разработаны тщательные подсказки — структурированные инструкции, которые направляют модель описывать поведение учителя, поведение учеников, визуальные признаки и тип взаимодействия в согласованном формате, чтобы результаты было легче сопоставлять с экспертными суждениями.

Создание лучших меток с помощью людей и машин

Создание качественного обучающего набора потребовало большего, чем просто показать модель видео. Сначала VisualGLM генерировал базовые описания каждого изображения. Человеческие аннотаторы затем корректировали ошибки и дополняли недостающий контекст, например кто говорит и слушают ли ученики или обсуждают. После этого они передавали эти отредактированные описания в ChatGPT, который под управлением пользовательских подсказок генерировал структурированные анализы по пяти категориям взаимодействия. Эксперты снова проверяли и редактировали эти сгенерированные ИИ анализы. В итоге получился богатый набор данных, в котором каждое изображение сопровождалось подробным и надёжным описанием действий учителя и учеников.

Figure 2
Figure 2.

Насколько хорошо ИИ «читал» класс?

При проверке на 100 новых изображениях классов, которые модель ранее не видела, дообученная модель правильно определяла тип взаимодействия в 82 процентах случаев. Лучшие результаты она показывала при распознавании направленных, самостоятельных и демонстрационных ситуаций — когда учитель явно объясняет, ученики тихо работают по отдельности или ученик выступает спереди. Больше трудностей возникало с коллективной работой и вопросно‑ответными ситуациями, где язык тела и расстановка мест могут быть неоднозначны даже для людей. Глубокое текстовое сравнение показало, что письменные описания модели часто близки к экспертным анализам, хотя иногда она «галлюцинировала» детали, не представленные на изображениях, или неверно трактовала тонкий жест.

Что это означает для будущих классов

Для неспециалиста суть в том, что ИИ‑системы становятся способны наблюдать за классами и суммировать ход преподавания и обучения с уровнем структуры и последовательности, который человеку трудно поддерживать на тысячах сцен. Хотя подход далёк от совершенства — особенно в тонких формах обсуждения и опроса — он демонстрирует, что мультимодальные большие языковые модели уже могут поддерживать образовательные исследования и, в перспективе, инструменты обратной связи для преподавателей. Когда модели начнут учитывать звук, жесты и более крупные, разнообразные наборы данных, они смогут помочь учителям увидеть закономерности в своей практике, которые ранее оставались незамеченными, предложив новый взгляд на то, как повседневные взаимодействия формируют обучение учеников.

Цитирование: Chen, G., Han, G., Niu, J. et al. Exploring teacher-student interaction through multimodal large language models: an empirical investigation. Sci Rep 16, 7602 (2026). https://doi.org/10.1038/s41598-026-38626-0

Ключевые слова: взаимодействие учителя и ученика, аналитика классов, мультимодальный ИИ, технологии в образовании, большие языковые модели