Clear Sky Science · ru

Атаки внедрения подсказок на образовательные большие языковые модели для высшего и профессионального образования

2026-03-31 · Назад к списку

Почему это важно для студентов и преподавателей

Школы и обучающие программы всё чаще обращаются к инструментам ИИ для выставления оценок, предоставления обратной связи и наставничества. В этой работе показано, что те же самые инструменты можно незаметно обмануть с помощью хитро сформулированных инструкций, скрытых в ответах студентов. Такие приёмы способны завышать оценки, обходить правила и вводить в заблуждение системы репетиторства, что ставит под сомнение справедливость и доверие к образованию на базе ИИ.

Figure 1. Как скрытые подсказки в ответах студентов могут направлять работу оценщиков на базе ИИ в сторону нечестных результатов в школах и учебных программах.

Как умных оценщиков можно ввести в заблуждение

Современные языковые модели работают, следуя инструкциям, написанным на обычном языке. В образовательной среде единая подсказка часто объединяет правила платформы, задание, детальное руководство по оцениванию, примеры и ответ студента. Поскольку всё рассматривается как единый длинный фрагмент текста, модель может спутать правило с частью ответа студента. Авторы показывают, что такое смешение голосов создаёт новую уязвимость: студенты могут скрывать дополнительные инструкции в, казалось бы, продуманных объяснениях, направляя модель к более мягкой оценке или игнорированию частей рубрики, не заявляя об этом прямо.

Как обычный ответ превращается в скрытую атаку

В статье предложена пошаговая схема создания подобных вводящих в заблуждение ответов. Сначала полный оценочный промпт разбивают на основные части: системные правила, описание задания, руководство по оцениванию и текст студента. Затем задают «роль», которую должен играть ответ, например выглядеть как самооценка или заметка оценщика. Дальше атаку вплетают в те части ответа, где система ожидает рассуждений или рефлексии, чтобы скрытые инструкции выглядели как обычное академическое письмо. Наконец, формулировки тщательно подбирают в тон рубрике, поскольку модели склонны вознаграждать ответы, отзывающиеся языком руководства по оцениванию. В итоге получается ответ, который для человека выглядит по теме, но тихо подталкивает модель к выставлению более высоких оценок или пропуску ошибок.

Figure 2. Как встроенные цветовые фрагменты внутри ответа студента притягивают оценщика на базе ИИ к более высоким оценкам и нарушению правил.

Что показывают тесты о риске

Чтобы оценить серьёзность проблемы, авторы протестировали свой метод на четырёх известных коллекциях образовательных заданий, включая оценивание эссе, короткие ответы по науке, смешанные классные сценарии и широкие академические вопросы. Они использовали несколько популярных моделей, настроенных для следования инструкциям, в реалистичной «чёрной коробке» — аналогично тому, как развёрнуты коммерческие системы. Во всех условиях эти целенаправленные атаки срабатывали значительно чаще, чем ряд существующих приёмов взлома подсказок. В среднем они повышали оценки более чем на двадцать процентов и делали это при том, что люди-рецензенты по-прежнему считали ответы нормальными и образовательно обоснованными. Атаки также оставались эффективными при добавлении простых защит, таких как очистка входных данных, разделение ролей в подсказке или принуждение к структурированному формату вывода.

Идеи для более безопасного ИИ в классах

Авторы утверждают, что эти проблемы — не только баги в конкретной модели, но и следствие того, как проектируются образовательные подсказки. Поскольку письмо студента одновременно служит доказательством и потенциальным источником инструкций, граница между «что оценивать» и «как оценивать» размывается. Они исследуют защиты, пытающиеся восстановить эту границу: сначала извлекать ключевые доказательства, затем оценивать только их; добавлять независимую проверяющую модель для сверки оценок с рубрикой; и обеспечивать жёсткую связь между оценками и процитированными доказательствами. Эти подходы направлены на то, чтобы скрытые инструкции труднее влияли на окончательное решение без обнаружения.

Что это значит для будущего оценки ИИ

В целом исследование показывает, что системы ИИ, используемые для оценивания и наставничества, можно незаметно манипулировать, если студенты знают, как формулировать свои ответы. Поскольку эти инструменты ныне участвуют в решениях с серьёзными последствиями — от оценок по курсам до профессиональных сертификатов — авторы призывают разработчиков и педагогов рассматривать безопасность как ключевое требование, а не как второстепенную задачу. Создание более надёжных подсказок, добавление проверок связи между доказательствами и оценками и регулярное тестирование систем с использованием враждебных входов станут необходимыми шагами для сохранения справедливости и доверия в образовании с поддержкой ИИ.

Цитирование: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

Ключевые слова: внедрение подсказок, безопасность оценки ИИ, образовательные большие языковые модели, автоматизированная оценка, профессиональное образование