Clear Sky Science · ru
Прогностический анализ вовлечённости студентов на университетских уроках физкультуры на основе мультимодального трансформера
Почему это важно для студентов и преподавателей
Университетские спортивные занятия должны повышать физическую форму, формировать полезные привычки в упражнениях и улучшать настроение, однако во многих спортзалах и на полях по‑прежнему наблюдается низкая посещаемость и формальное участие. В этом исследовании показано, как данные с носимых устройств, камер в аудитории и короткие письменные отклики можно объединить, чтобы автоматически оценивать реальную вовлечённость студентов во время занятий по физкультуре, давая преподавателям более оперативное и объективное представление по сравнению с традиционными чек‑листами или итоговыми опросами.
Преобразование спортивных занятий в богатый поток данных
В современных курсах по физическому воспитанию студенты часто носят устройства, отслеживающие частоту сердечных сокращений, количество шагов и движение, камеры фиксируют групповые действия, а онлайн‑платформы собирают короткие сообщения и комментарии. Авторы используют крупную национальную базу данных, объединяющую эти потоки для 1000 студентов в течение тысяч часов занятий. Каждые десятиминутные фрагменты класса помечены обученными экспертами как демонстрирующие низкую, среднюю или высокую активность, исходя из того, как студенты двигаются, насколько интенсивно работают их тела и что они говорят о занятии. Эти размеченные отрезки становятся тренировочным материалом для компьютерной модели, которая учится определять вовлечённость по «сырым» данным, а не по разрозненным впечатлениям.

Обучение модели «читать» тело, лицо и слова
Вместо опоры на один источник информации исследование строит многоуровневую модель, которая рассматривает датчики, текст и видео как равноправные потоки. Для сигналов с датчиков, таких как ЧСС и акселерация, сеть для обработки последовательностей учится выявлять паттерны вроде длительной нагрузки или повторяющихся всплесков активности. Для комментариев студентов и коротких рефлексий языковая модель сворачивает целые предложения в компактные представления, кодирующие отношение и тон. Для видеоклипов другая сеть разбивает каждый кадр на патчи и учится распознавать, как разворачиваются мимика, поза и движения со временем. Все три потока затем переводятся в общее числовое пространство, чтобы модель могла эффективно сравнивать и комбинировать их.
Как модель связывает сигналы с вовлечённостью
Сердцевина подхода — это техника, позволяющая разным потокам данных «обращать внимание» друг на друга. Сначала модель усиливает каждый поток по‑отдельности, изучая внутреннюю структуру, такую как тренды пульса или ключевые моменты в видео. Затем она связывает потоки, задавая вопросы вроде какие периоды в данных с датчиков соответствуют письменным упоминаниям усталости, или какие фрагменты видео совпадают с языком, указывающим на возбуждение. Обучаясь таким перекрёстным связям, система строит объединённую картину того, что происходит с каждым студентом в течение десятиминутного окна. Наконец, эта объединённая картина передаётся на простой выходной слой, который выдаёт как непрерывную оценку вовлечённости, так и трёхуровневую категорию.

Насколько хорошо система работает на практике
При сравнении мультимодальной модели с рядом существующих методов, использующих только датчики, только видео или лишь две модальности, исследователи обнаружили явные преимущества. Новая система сокращает ошибку прогноза более чем на пятую часть по сравнению с сильным базовым решением на основе только датчиков и достигает более 90 процентов точности в классификации уровней вовлечённости. Важно, что она работает достаточно быстро, чтобы быть полезной во время занятия, требуя примерно 0,2 секунды на обработку десяти минут данных для одного студента. Тесты, последовательно исключавшие один тип данных, показали, что все три источника ценны: наибольший вклад вносит видео, затем текст и затем датчики. Дополнительный анализ внутренних паттернов внимания модели указывает, что она сосредотачивается на разумных сигналах, например связывая рост пульса с активным движением и последующей усталостью.
Что это может значить для будущих спортивных занятий
Авторы делают вывод, что тщательно спроектированная мультимодальная система может обеспечивать своевременное и достаточно точное представление о вовлечённости студентов в физкультуре, смещая оценку от грубых впечатлений к непрерывной, основанной на данных картине. Хотя подход требует камер и носимых устройств и поднимает вопросы приватности и справедливости, он указывает на будущее, в котором преподаватели получают обратную связь в реальном времени о том, когда студенты сосредоточены, воодушевлены или отвлекаются, и могут корректировать активность на месте, не дожидаясь итоговых опросов в конце семестра.
Цитирование: Li, J. Predictive analysis of student engagement in university physical education courses based on a multimodal transformer algorithm. Sci Rep 16, 15123 (2026). https://doi.org/10.1038/s41598-026-45928-w
Ключевые слова: вовлечённость студентов, физическое воспитание, мультимодальное обучение, модель трансформер, носимые датчики