Clear Sky Science · pt

Ataques de injeção de prompt em grandes modelos de linguagem educacionais para ensino superior e técnico

· Voltar ao índice

Por que isso importa para estudantes e professores

Escolas e programas de formação estão cada vez mais adotando ferramentas de IA para corrigir trabalhos, oferecer feedback e orientar estudantes. Este artigo demonstra que essas mesmas ferramentas podem ser silenciosamente enganadas por formulações astutas escondidas nas respostas dos alunos. Esses artifícios podem inflar notas, contornar regras e induzir sistemas de tutoria ao erro, levantando questões sérias sobre equidade e confiança na educação movida a IA.

Figure 1. Como pistas ocultas nas respostas dos alunos podem direcionar avaliadores de IA para resultados injustos em escolas e programas de formação.
Figure 1. Como pistas ocultas nas respostas dos alunos podem direcionar avaliadores de IA para resultados injustos em escolas e programas de formação.

Como avaliadores inteligentes podem ser desviados

Modelos de linguagem modernos funcionam seguindo instruções escritas em linguagem cotidiana. Na educação, um único prompt frequentemente combina regras da plataforma, a tarefa, um guia detalhado de pontuação, exemplos e a resposta do aluno. Como tudo é tratado como um único bloco de texto, o modelo pode confundir o que é uma regra com o que é apenas parte da resposta do aluno. Os autores mostram que essa mistura de vozes cria um novo risco de segurança: estudantes podem esconder instruções extras dentro de explicações aparentemente sinceras, direcionando o modelo a avaliar com mais brandura ou a ignorar partes do esquema de pontuação sem jamais dizer isso diretamente.

Transformando uma resposta normal em um ataque oculto

O artigo apresenta um roteiro passo a passo para elaborar essas respostas enganosas. Primeiro, divide o prompt de avaliação completo em suas peças principais, como regras do sistema, descrição da tarefa, guia de pontuação e texto do aluno. Em seguida, define um “papel” para a resposta desempenhar, como soar como uma autoavaliação ou uma nota do corretor. Depois, entrelaça o ataque em partes da resposta onde o sistema espera raciocínio ou reflexão, de modo que as instruções ocultas pareçam escrita acadêmica normal. Por fim, a redação é cuidadosamente combinada com a linguagem do rubrica, porque modelos tendem a favorecer respostas que ecoam o guia de pontuação. O resultado final é uma resposta que parece pertinente a um leitor humano, mas que sutilmente induz o modelo a atribuir notas mais altas ou a negligenciar erros.

Figure 2. Como fragmentos coloridos incorporados dentro de uma resposta do aluno levam um avaliador de IA a atribuir notas mais altas e a violar regras.
Figure 2. Como fragmentos coloridos incorporados dentro de uma resposta do aluno levam um avaliador de IA a atribuir notas mais altas e a violar regras.

O que os testes revelam sobre o risco

Para avaliar a gravidade do problema, os autores testaram seu método em quatro coleções bem conhecidas de tarefas educacionais, incluindo avaliação de ensaios, respostas curtas de ciências, cenários mistos de sala de aula e questões acadêmicas amplas. Utilizaram vários modelos populares ajustados por instrução em um cenário realista de caixa preta, semelhante ao modo como sistemas comerciais são implantados. Em todos os cenários, os ataques elaborados tiveram sucesso muito mais frequentemente do que uma série de truques de invasão de prompt existentes. Em média, aumentaram as notas em mais de vinte por cento e fizeram isso enquanto avaliadores humanos ainda julgavam as respostas como normais e pedagogicamente razoáveis. Os ataques também permaneceram eficazes quando proteções simples foram adicionadas, como sanitização de entradas, separação de papéis no prompt ou imposição de formatos de saída estruturados.

Ideias para uma IA mais segura nas salas de aula

Os autores argumentam que esses problemas não são apenas bugs em um modelo específico, mas decorrem de como os prompts educacionais são concebidos. Como a escrita do aluno funciona tanto como evidência quanto como possível fonte de instruções, a fronteira entre “o que julgar” e “como julgar” fica turva. Eles exploram defesas que tentam restaurar essa fronteira, como primeiro extrair evidências chave e depois pontuar apenas com base nelas, adicionar um modelo verificador independente para confrontar as notas com o rubrica e impor vínculos rigorosos entre pontuações e evidências citadas. Essas ideias visam dificultar que instruções ocultas influenciem a decisão final sem serem detectadas.

O que isso significa para o futuro da correção por IA

Em resumo, o estudo mostra que sistemas de IA usados para correção e tutoria podem ser silenciosamente manipulados por estudantes que entendem como formular suas respostas. Como essas ferramentas agora participam de decisões de alto risco, desde notas de disciplinas até certificados profissionais, os autores instam projetistas e educadores a tratar segurança como um requisito central, não como um detalhe posterior. Construir prompts mais seguros, adicionar verificações sobre como a evidência sustenta as notas e testar rotineiramente os sistemas com entradas adversariais serão passos essenciais para manter a educação assistida por IA justa e confiável.

Citação: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

Palavras-chave: injeção de prompt, segurança de avaliação por IA, grandes modelos de linguagem educacionais, avaliação automatizada, educação profissional