Clear Sky Science · ru

Гибридная модель actor–critic и BERT для интеллектуальных рекомендаций курсов в системах электронного обучения с поддержкой IoT

2026-02-23 · Назад к списку

Поиск подходящего онлайн-курса

По мере того как платформы онлайн-образования разрастаются тысячами курсов, многие учащиеся сталкиваются с простой, но раздражающей проблемой: какой курс выбрать дальше? В этой статье решается задача информационной перегрузки путем разработки интеллектуальной системы рекомендаций, которая отслеживает, как люди действительно учатся на телефонах, планшетах и компьютерах, и со временем предлагает курсы, лучше соответствующие их целям, способностям и привычкам.

Почему онлайн-обучению нужны более умные проводники

Массовые открытые онлайн-курсы, или MOOCs, дают возможность каждому, в любом месте, получать качественные уроки. Но успех этой модели создал новую проблему: при таком множестве вариантов легко потеряться. Традиционные методы рекомендаций, которые в основном опираются на звездные оценки или простое сходство между пользователями, испытывают трудности в этой быстро меняющейся среде. Они предполагают, что ваши предпочтения остаются неизменными и часто игнорируют богатые сигналы, такие как длительность сессии, используемое устройство или моменты, когда вы чаще отказываетесь от курса. На современных связанных образовательных платформах эти паттерны постоянно фиксируются и могут дать гораздо больше информации о том, что сохранит вовлечённость обучающегося.

Объединяя то, что говорят курсы, и то, что делают учащиеся

Авторы предлагают гибридную систему, сочетающую два типа информации: смысловое содержание курсов и подробные следы поведения учащихся. Сначала они используют мощную языковую модель BERT, чтобы прочитать названия курсов, описания и теги, преобразуя их в плотные числовые отпечатки, которые улавливают тонкие различия в тематике и стиле. В то же время система собирает сигналы взаимодействия из веб- и мобильных логов — как часто пользователь нажимает, как долго смотрит видео, с какой скоростью проходит материалы и насколько сложными ему кажутся различные занятия. Эти следы имитируют среду обучения с Интернетом вещей, где множество подключённых устройств вносят вклад в картину учебных привычек каждого человека.

Как учебный ассистент обучает сам себя

В основе фреймворка лежит постановка задачи обучения с подкреплением, где рекомендатель ведет себя как агент, который учится методом проб и ошибок. Пара нейросетей «actor–critic» выбирает, какие курсы предлагать, и оценивает качество этих решений, постепенно улучшая свою стратегию. Состояние, подаваемое агенту, объединяет BERT‑основанные отпечатки курсов, компактные сводки поведения учащегося и дополнительные признаки, получаемые модулем расстояния Махаланобиса, который измеряет сходство с учётом корреляций между многими признаками. Вместо погоня за быстрыми кликами, сигнал вознаграждения поощряет более глубокие результаты: завершение большего количества курсов, лучшие результаты в тестах и существенное время, проведённое за обучением. Метод обучения Proximal Policy Optimization обеспечивает стабильность обучения даже когда система исследует новые рекомендации.

Тестирование на реальных платформах курсов

Чтобы проверить работоспособность этой архитектуры на практике, авторы обучили и оценили свою модель на трёх крупных коллекциях курсов: MOOCCube, edX и NTHU MOOCs. Эти наборы данных различаются по объёму, тематическому составу и плотности пользовательских взаимодействий, что делает их хорошим полигоном для испытаний. Они сравнили свою систему с несколькими сильными конкурентами, включая методы на основе графовых нейронных сетей, кластеризации и глубоких гибридных архитектур. По всем наборам данных и стандартным метрикам качества ранжирования новая модель демонстрировала стабильное превосходство, обычно улучшая ключевые показатели на два-четыре процентных пункта. Тщательные исследования влияния компонент показали, что каждый элемент — семантическое кодирование текста, структура actor–critic, правило обучения PPO и корреляционно-учитывающее расстояние — вносил вклад в итоговый прирост.

Что это означает для будущего онлайн-обучения

Проще говоря, исследование показывает, что рекомендательная система, которая действительно прислушивается и к обещаниям курсов, и к поведению учащихся, может эффективнее проводить людей по переполненным онлайн-каталогам. Отслеживая не только клики, но и завершение курсов, успехи в тестах и длительную концентрацию, система учится предлагать курсы, которые с большей вероятностью соответствуют уровню каждого обучающегося и помогают им держать курс. Поскольку система разработана с учетом мер конфиденциальности и может быть расширена с помощью таких техник, как федеративное обучение и объяснимые интерфейсы, этот фреймворк предлагает практический путь к более поддерживающим, адаптивным онлайн-классам, которые меньше напоминают блуждание в лабиринте и больше — сопровождение со стороны знающего наставника, указывающего следующий шаг.

Цитирование: Chunqin, X., Peixi, W. A hybrid actor–critic and BERT framework for intelligent course recommendation in IoT-aware e-learning systems. Sci Rep 16, 10259 (2026). https://doi.org/10.1038/s41598-026-40952-2

Ключевые слова: рекомендации онлайн-курсов, персонализированное электронное обучение, обучение с подкреплением, образовательные данные, аналитика обучения