Clear Sky Science · ru

Гибридная модель actor–critic и BERT для интеллектуальных рекомендаций курсов в системах электронного обучения с поддержкой IoT

· Назад к списку

Поиск подходящего онлайн-курса

По мере того как платформы онлайн-образования разрастаются тысячами курсов, многие учащиеся сталкиваются с простой, но раздражающей проблемой: какой курс выбрать дальше? В этой статье решается задача информационной перегрузки путем разработки интеллектуальной системы рекомендаций, которая отслеживает, как люди действительно учатся на телефонах, планшетах и компьютерах, и со временем предлагает курсы, лучше соответствующие их целям, способностям и привычкам.

Figure 1
Figure 1.

Почему онлайн-обучению нужны более умные проводники

Массовые открытые онлайн-курсы, или MOOCs, дают возможность каждому, в любом месте, получать качественные уроки. Но успех этой модели создал новую проблему: при таком множестве вариантов легко потеряться. Традиционные методы рекомендаций, которые в основном опираются на звездные оценки или простое сходство между пользователями, испытывают трудности в этой быстро меняющейся среде. Они предполагают, что ваши предпочтения остаются неизменными и часто игнорируют богатые сигналы, такие как длительность сессии, используемое устройство или моменты, когда вы чаще отказываетесь от курса. На современных связанных образовательных платформах эти паттерны постоянно фиксируются и могут дать гораздо больше информации о том, что сохранит вовлечённость обучающегося.

Объединяя то, что говорят курсы, и то, что делают учащиеся

Авторы предлагают гибридную систему, сочетающую два типа информации: смысловое содержание курсов и подробные следы поведения учащихся. Сначала они используют мощную языковую модель BERT, чтобы прочитать названия курсов, описания и теги, преобразуя их в плотные числовые отпечатки, которые улавливают тонкие различия в тематике и стиле. В то же время система собирает сигналы взаимодействия из веб- и мобильных логов — как часто пользователь нажимает, как долго смотрит видео, с какой скоростью проходит материалы и насколько сложными ему кажутся различные занятия. Эти следы имитируют среду обучения с Интернетом вещей, где множество подключённых устройств вносят вклад в картину учебных привычек каждого человека.

Как учебный ассистент обучает сам себя

В основе фреймворка лежит постановка задачи обучения с подкреплением, где рекомендатель ведет себя как агент, который учится методом проб и ошибок. Пара нейросетей «actor–critic» выбирает, какие курсы предлагать, и оценивает качество этих решений, постепенно улучшая свою стратегию. Состояние, подаваемое агенту, объединяет BERT‑основанные отпечатки курсов, компактные сводки поведения учащегося и дополнительные признаки, получаемые модулем расстояния Махаланобиса, который измеряет сходство с учётом корреляций между многими признаками. Вместо погоня за быстрыми кликами, сигнал вознаграждения поощряет более глубокие результаты: завершение большего количества курсов, лучшие результаты в тестах и существенное время, проведённое за обучением. Метод обучения Proximal Policy Optimization обеспечивает стабильность обучения даже когда система исследует новые рекомендации.

Figure 2
Figure 2.

Тестирование на реальных платформах курсов

Чтобы проверить работоспособность этой архитектуры на практике, авторы обучили и оценили свою модель на трёх крупных коллекциях курсов: MOOCCube, edX и NTHU MOOCs. Эти наборы данных различаются по объёму, тематическому составу и плотности пользовательских взаимодействий, что делает их хорошим полигоном для испытаний. Они сравнили свою систему с несколькими сильными конкурентами, включая методы на основе графовых нейронных сетей, кластеризации и глубоких гибридных архитектур. По всем наборам данных и стандартным метрикам качества ранжирования новая модель демонстрировала стабильное превосходство, обычно улучшая ключевые показатели на два-четыре процентных пункта. Тщательные исследования влияния компонент показали, что каждый элемент — семантическое кодирование текста, структура actor–critic, правило обучения PPO и корреляционно-учитывающее расстояние — вносил вклад в итоговый прирост.

Что это означает для будущего онлайн-обучения

Проще говоря, исследование показывает, что рекомендательная система, которая действительно прислушивается и к обещаниям курсов, и к поведению учащихся, может эффективнее проводить людей по переполненным онлайн-каталогам. Отслеживая не только клики, но и завершение курсов, успехи в тестах и длительную концентрацию, система учится предлагать курсы, которые с большей вероятностью соответствуют уровню каждого обучающегося и помогают им держать курс. Поскольку система разработана с учетом мер конфиденциальности и может быть расширена с помощью таких техник, как федеративное обучение и объяснимые интерфейсы, этот фреймворк предлагает практический путь к более поддерживающим, адаптивным онлайн-классам, которые меньше напоминают блуждание в лабиринте и больше — сопровождение со стороны знающего наставника, указывающего следующий шаг.

Цитирование: Chunqin, X., Peixi, W. A hybrid actor–critic and BERT framework for intelligent course recommendation in IoT-aware e-learning systems. Sci Rep 16, 10259 (2026). https://doi.org/10.1038/s41598-026-40952-2

Ключевые слова: рекомендации онлайн-курсов, персонализированное электронное обучение, обучение с подкреплением, образовательные данные, аналитика обучения