Clear Sky Science · es

Ataques de inyección de prompt contra modelos de lenguaje grandes educativos para educación superior y formación profesional

2026-03-31 · Volver al índice

Por qué esto importa para estudiantes y docentes

Las escuelas y los programas de formación recurren cada vez más a herramientas de IA para calificar trabajos, ofrecer retroalimentación y orientar a los estudiantes. Este artículo muestra que esas mismas herramientas pueden ser silenciosamente engañadas mediante redacciones ingeniosas ocultas dentro de las respuestas estudiantiles. Tales artimañas pueden inflar las notas, vulnerar normas y confundir sistemas de tutoría, planteando serias dudas sobre la equidad y la confianza en la educación potenciada por IA.

Figure 1. Cómo señales ocultas en las respuestas de los estudiantes pueden orientar a los correctores de IA hacia resultados injustos en centros educativos y programas de formación.

Cómo se puede desviar a correctores inteligentes

Los modelos de lenguaje modernos funcionan siguiendo instrucciones redactadas en lenguaje cotidiano. En educación, un único prompt suele agrupar las reglas de la plataforma, la tarea, una guía de calificación detallada, ejemplos y la respuesta del estudiante. Como todo se trata como un único bloque de texto, el modelo puede confundir lo que es una norma con lo que es simplemente parte de la respuesta del alumno. Los autores muestran que esta mezcla de voces crea un nuevo riesgo de seguridad: los estudiantes pueden ocultar instrucciones adicionales dentro de explicaciones que parecen genuinas, orientando al modelo a calificar con más benevolencia o a pasar por alto partes de la rúbrica sin decirlo de forma explícita.

Convertir una respuesta normal en un ataque oculto

El artículo presenta un marco paso a paso para elaborar este tipo de respuestas engañosas. Primero, descompone el prompt de calificación completo en sus piezas principales, como reglas del sistema, descripción de la tarea, guía de puntuación y texto del estudiante. A continuación, diseña un "rol" que la respuesta debe representar, por ejemplo, sonar como una autoevaluación o una nota del corrector. Luego incorpora el ataque en partes de la respuesta donde el sistema espera razonamiento o reflexión, de modo que las instrucciones ocultas parezcan escritura académica normal. Finalmente, la redacción se ajusta estrechamente al lenguaje de la rúbrica, ya que los modelos tienden a premiar respuestas que repiten la guía de calificación. El resultado es una respuesta que a un lector humano parece pertinente pero que, silenciosamente, empuja al modelo a otorgar puntuaciones más altas u omitir errores.

Figure 2. Cómo fragmentos incrustados y coloreados dentro de una respuesta estudiantil atraen a un corrector de IA hacia calificaciones más altas y el incumplimiento de normas.

Lo que revelan las pruebas sobre el riesgo

Para evaluar la gravedad del problema, los autores probaron su método en cuatro colecciones bien conocidas de tareas educativas, incluyendo corrección de ensayos, respuestas cortas de ciencias, escenarios mixtos de aula y preguntas académicas amplias. Emplearon varios modelos afinados para instrucciones en un entorno de caja negra realista, similar a cómo se despliegan los sistemas comerciales. En todos los escenarios, los ataques diseñados tuvieron éxito con mucha más frecuencia que una serie de trucos existentes para manipular prompts. De media, aumentaron las calificaciones en más de un veinte por ciento y lo hicieron mientras los revisores humanos seguían valorando las respuestas como normales y pedagogicamente razonables. Los ataques también mantuvieron su efectividad cuando se añadieron protecciones simples, como sanitizar entradas, separar roles en el prompt o forzar formatos de salida estructurados.

Ideas para una IA más segura en las aulas

Los autores sostienen que estos problemas no son solo fallos de un modelo concreto, sino que derivan de cómo se diseñan los prompts educativos. Dado que el texto del estudiante sirve tanto como evidencia como posible fuente de instrucciones, el límite entre "qué juzgar" y "cómo juzgar" se difumina. Exploran defensas que intentan restaurar ese límite, como extraer primero la evidencia clave y calificar solo eso, añadir un modelo verificador independiente para contrastar las calificaciones con la rúbrica y exigir vínculos estrictos entre las puntuaciones y la evidencia citada. Estas ideas buscan dificultar que las instrucciones ocultas influyan en la decisión final sin ser detectadas.

Qué implica esto para el futuro de la corrección por IA

En conjunto, el estudio muestra que los sistemas de IA usados para calificar y tutorizar pueden ser manipulados silenciosamente por estudiantes que saben cómo formular sus respuestas. Dado que estas herramientas participan ahora en decisiones de alto impacto, desde notas de curso hasta certificaciones profesionales, los autores instan a diseñadores y educadores a considerar la seguridad como un requisito fundamental y no como una ocurrencia tardía. Construir prompts más seguros, añadir comprobaciones sobre cómo la evidencia respalda las puntuaciones y probar rutinariamente los sistemas con entradas adversarias serán pasos esenciales para mantener la educación asistida por IA justa y confiable.

Cita: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

Palabras clave: inyección de prompt, seguridad en la corrección por IA, modelos de lenguaje grandes educativos, evaluación automatizada, formación profesional