Clear Sky Science · ru

Эмпирическая валидация фреймворка генеративного ИИ для персонализированной оценки в образовании

· Назад к списку

Почему умная проверка важна для каждого студента

Тот, кто когда-либо ждал от преподавателя несколько дней за возвращение задания, знает: обратная связь часто приходит слишком поздно и слишком обобщённой, чтобы быть действительно полезной. В этом исследовании изучают, может ли современный искусственный интеллект изменить ситуацию, выступая в роли неутомимого помощника преподавателя, который читает работу студентов, понимает их сильные и слабые стороны и в течение секунд возвращает подробные, персонализированные комментарии. Фокусируясь на студентах вузов, изучающих Python, исследователи задают простой, но мощный вопрос: может ли система ИИ оценивать и отвечать почти так же хорошо, как человеческие эксперты, при этом обеспечивая каждому учащемуся тот уровень персонального внимания, который недоступен большинству аудиторий?

Figure 1
Figure 1.

От «одного размера для всех» к обратной связи, сделанной на мерку

Традиционные тесты и домашние задания обычно ведут себя так, будто все студенты изучают материал одинаково и в одинаковом темпе. Авторы утверждают, что такой единый подход противоречит современным представлениям о том, насколько по-разному люди мыслят, помнят и решают задачи. Вместо простого ранжирования студентов лучше система, которая диагностирует, какие идеи каждый учащийся усвоил, где у него возникают затруднения и каким способом он предпочитает учиться. Недавние достижения в области генеративного ИИ — систем, которые умеют писать тексты, объяснять код и отвечать на вопросы — дают шанс создать такую систему, но лишь при условии, что технология будет достаточно точной, прозрачной и справедливой для реальных классов.

Многоуровневый ИИ-помощник, созданный для класса

Для решения этой задачи исследователи разработали цифровой фреймворк из пяти уровней, который имитирует работу внимательного человеческого репетитора. Во-первых, слой данных собирает информацию о действиях студентов в сети: присланные ими программы, сколько времени они тратят на задания и как часто практикуются. Во-вторых, слой обработки очищает и упорядочивает этот поток в значимые сигналы. В-третьих, аналитический слой отслеживает понимание каждым учащимся ключевых идей, используя подробную карту концепций Python, так что система может видеть, например, что проблемы с циклами могут происходить из-за более ранних пробелов в базовом управлении потоком. Поверх этого слой генерации использует дообученную языковую модель для создания персонализированных комментариев, рекомендаций и новых практических задач. Наконец, слой обратной связи постоянно корректирует систему на основе реакции преподавателей и студентов, заставляя ИИ со временем звучать всё больше как опытный педагог.

Испытание ИИ-репетитора в деле

Команда не ограничилась созданием продуманной схемы — они протестировали её на 449 студентах, проходивших вводные курсы по Python в двух университетах. Половина студентов получала обычную, преимущественно стандартную обратную связь; другая половина использовала систему на базе ИИ, которая формировала индивидуализированные ответы на их код. Независимые эксперты вручную оценили большую выборку работ студентов и сопоставили свои суждения с оценками ИИ. Рейтинги нового фреймворка очень хорошо совпадали с экспертным мнением, практически достигая уровня согласованности, наблюдаемой между опытными преподавателями. В то же время ИИ мог сформировать полную оценку примерно за десяток секунд, тогда как ручная проверка одного задания занимала около получаса, сокращая время ожидания более чем на 99 процентов.

Figure 2
Figure 2.

Как умная обратная связь меняет обучение

Кроме точности и скорости, ключевым вопросом было, действительно ли студенты стали больше учиться. По итоговым тестам группа, использовавшая оценки на основе ИИ, показала более высокие результаты по сравнению с контрольной группой — с умеренным эффектом, который исследователи в области образования считают практически значимым. Прирост был особенно существен для студентов с изначально низким уровнем, что указывает на то, что индивидуализированное руководство помогло им догнать сверстников. Данные журналов активности показали, что эти студенты оставались более вовлечёнными в течение двенадцатинедельного курса: заходили на платформу чаще, больше практиковались и сохраняли мотивацию, в то время как в контрольной группе мотивация постепенно снижалась. Опросы также показали, что студенты считали комментарии ИИ более релевантными, понятными и ободряющими по сравнению со стандартной обратной связью.

Что это может значить для будущих классов

Для широкой аудитории главный вывод таков: тщательно продуманный генеративный ИИ может удивительно близко подойти к уровню экспертов-преподавателей в оценке работ студентов, при этом позволяя предлагать богатую, персонализированную обратную связь сотням учащихся одновременно. Система не безупречна: она периодически допускает мелкие ошибки, требует значительных вычислительных ресурсов и по-прежнему выигрывает от человеческого контроля, особенно при необычных ошибках. Тем не менее исследование показывает, что когда ИИ опирается на надёжные методы образовательной теории и строго тестируется в реальных курсах, он может превратить оценивание из медленного, грубого инструмента в быстрый, тонкий диалог о том, как учится каждый студент. Если эти инструменты станут более доступными и широко распространёнными, они могут принести тот уровень индивидуальной поддержки, который раньше был доступен лишь при индивидуальном репетиторстве, в повседневные учебные занятия.

Цитирование: Qian, M., Ji, H. & Li, L. Empirical validation of a generative AI framework for personalized education assessment. Sci Rep 16, 11538 (2026). https://doi.org/10.1038/s41598-026-42169-9

Ключевые слова: персонализированное обучение, оценка ИИ, обучение программированию, обратная связь студентам, образовательные технологии