Clear Sky Science · ru
Улучшение автоматической оценки письма IELTS с помощью M-LoRA донастройки LLAMA-3 и обучения с подкреплением PPO на основе человеческой обратной связи
Почему важна умная помощь с эссе
Для миллионов людей ежегодно экзамен IELTS открывает двери к учебе, работе или иммиграции за рубежом. Тем не менее многие испытуемые испытывают наибольшие трудности с письменной частью, где получить ясную и надёжную обратную связь непросто, а услуги репетиторов могут быть дорогими. В этой статье исследуется новый подход к использованию искусственного интеллекта не только для оценки эссе IELTS, но и для предоставления подробных, похожих на человеческие рекомендаций, которые действительно помогают авторам улучшаться, при этом оставаясь максимально согласованными с тем, как думают реальные экзаменаторы.

Сложность оценки письменных работ
Оценить качество эссе сложнее, чем просто проверить орфографию или посчитать слова. Человеческие экзаменаторы оценивают, насколько хорошо автор отвечает на задание, насколько ясно организованы идеи, насколько разнообразен и точен словарный запас и насколько правильна и разнообразна грамматика. Существующие автоматизированные системы часто хорошо работают лишь на узких, фиксированных наборах заданий и могут «забывать», как оценивать прежние типы эссе при столкновении с новыми. Такие крупные языковые модели, как GPT‑4, показывают обещающие результаты, но при прямом использовании им всё ещё сложно соответствовать оценкам людей, и они склонны давать обобщённую, универсальную обратную связь.
Формирование богатого набора данных по письму IELTS
Чтобы преодолеть эти ограничения, авторы сначала создали новый приватный набор данных из 5 088 реальных эссе по заданию 2 письменной части IELTS, написанных китайскими учащимися. Каждое эссе сопровождалось оценками опытных преподавателей IELTS по четырём официальным критериям: Task Response, Coherence and Cohesion, Lexical Resource и Grammatical Range and Accuracy. Важно, что преподаватели также предоставляли детализированную обратную связь, указывая на такие проблемы, как неясные мысли, неуклюжие связи между предложениями или бедный словарный запас, а также предлагали варианты переформулировок. Такая богатая аннотация значительно превосходит типичные публичные наборы данных и служит фундаментом для обучения и тестирования новой системы.
Трёхэтапный интеллектуальный тренер по письму
Предложенная система построена на LLaMA‑3, современной крупной языковой модели, улучшенной с помощью лёгкого метода дообучения, называемого Multi‑task LoRA. На первом этапе модель обучается решать несколько задач одновременно: для каждого эссе она предсказывает бэнд‑оценку по каждому из четырёх критериев IELTS и генерирует целевые комментарии для каждой области. Отдельные «головы» сосредоточены на каждой черте, при этом разделяя общее понимание текста, что помогает модели избегать привычного «катастрофического забвения» при работе с множеством разных запросов.

Обучение ИИ ценить качественную обратную связь
На втором этапе авторы обучают отдельную модель вознаграждения, которая учится оценивать качество самой обратной связи, сравнивая сгенерированные моделью комментарии с написанными преподавателями. Эта модель вознаграждения выступает в роли заместителя человеческих экзаменаторов во время обучения. На третьем этапе основная система дополнительно уточняется с помощью метода обучения с подкреплением, известного как PPO. Здесь модель генерирует обратную связь, модель вознаграждения оценивает, насколько эта обратная связь соответствует предпочтениям экспертов, и система корректирует своё поведение, стремясь к более качественным, более похожим на экзаменаторские ответам в ходе многих итераций.
Что результаты значат для учащихся и преподавателей
В тестах новая система показала более высокое согласие с оценками людей по сравнению с мощными альтернативами, включая различные варианты использования GPT‑4, и создала обратную связь, которую автоматические метрики и человеческие судьи признали ближе к экспертным комментариям. Хотя числовые улучшения в точности оценивания скромны, реальная сила системы заключается в предоставлении подробных, основанных на рубрике и персонализированных рекомендаций, похожих на то, что написал бы опытный преподаватель. Для кандидатов IELTS такой подход открывает путь к доступной, всегда доступной поддержке письма, которая делает больше, чем простая постановка бэнд‑оценки — она объясняет почему и как улучшиться в следующий раз.
Цитирование: Xu, W., Kassim, M.S.S. & Mahmud, R. Enhancing IELTS writing automated scoring with M-LoRA fine-tuned LLAMA-3 and human feedback-driven PPO reinforcement learning. Sci Rep 16, 10865 (2026). https://doi.org/10.1038/s41598-026-43318-w
Ключевые слова: автоматическая оценка эссе, письменная часть IELTS, большие языковые модели, педагогическая обратная связь, обучение с подкреплением