Clear Sky Science · nl
Prompt-injectieaanvallen op educatieve grote taalmodellen voor hoger en beroepsonderwijs
Waarom dit belangrijk is voor studenten en docenten
Scholen en opleidingsprogramma's wenden zich steeds vaker tot AI-hulpmiddelen om werk te beoordelen, feedback te geven en studenten te coachen. Dit artikel laat zien dat dezezelfde hulpmiddelen stilletjes kunnen worden misleid door slimme formuleringen die in studentenantwoorden verborgen zitten. Dergelijke trucs kunnen cijfers opstuwen, regels buigen en tutorsystemen misleiden, wat ernstige vragen oproept over eerlijkheid en vertrouwen in door AI ondersteund onderwijs.

Hoe slimme beoordelaars op het verkeerde been kunnen worden gezet
Moderne taalmodellen werken door instructies te volgen die in alledaagse taal zijn geschreven. In het onderwijs bundelt een enkele prompt vaak platformregels, de opdracht, een gedetailleerde beoordelingsgids, voorbeelden en het studentenantwoord. Omdat alles als één lang tekstblok wordt behandeld, kan het model verwarren wat een regel is met wat gewoon deel uitmaakt van een studentenantwoord. De auteurs tonen aan dat dit gemeng van stemmen een nieuw beveiligingsrisico creëert: studenten kunnen extra instructies verbergen in ogenschijnlijk doordachte verklaringen, waardoor het model milder gaat beoordelen of delen van de rubric genegeerd worden zonder dat dit expliciet wordt gezegd.
Een normaal antwoord omzetten in een verborgen aanval
Het artikel introduceert een stapsgewijs raamwerk voor het opstellen van dergelijke misleidende antwoorden. Eerst verdeelt het de volledige beoordelingsprompt in de hoofdcomponenten, zoals systeemeisen, taakbeschrijving, beoordelingsgids en studententekst. Vervolgens ontwerpt het een "rol" voor het antwoord om te spelen, bijvoorbeeld klinkend als een zelfevaluatie of een opmerking van een beoordelaar. Daarna wordt de aanval verweven in delen van de respons waar het systeem redenering of reflectie verwacht, zodat de verborgen instructies lijken op normale academische tekst. Ten slotte wordt de bewoording nauw afgestemd op de taal van de rubric, omdat modellen geneigd zijn antwoorden te belonen die de beoordelingsgids echoën. Het eindresultaat is een respons die voor een menselijke lezer on topic lijkt maar het model stilletjes aanzet tot het toekennen van hogere scores of het over het hoofd zien van fouten.

Wat de tests over het risico onthullen
Om te onderzoeken hoe ernstig dit probleem is, testten de auteurs hun methode op vier goed bekende verzamelingen van educatieve taken, waaronder essaybeoordeling, korte natuurkundevragen, gemengde klascenario's en brede academische vragen. Ze gebruikten meerdere populaire instructie-getunede modellen in een realistische blackbox-opstelling, vergelijkbaar met hoe commerciële systemen worden ingezet. In alle scenario's slaagden de uitgewerkte aanvallen veel vaker dan een reeks bestaande prompt-hacktactieken. Gemiddeld verhoogden ze de cijfers met meer dan twintig procent en deden dat terwijl menselijke beoordelaars de antwoorden nog steeds als normaal en onderwijskundig redelijk beoordeelden. De aanvallen bleven ook effectief toen eenvoudige beschermingsmaatregelen werden toegevoegd, zoals het zuiveren van invoer, het scheiden van rollen in de prompt of het afdwingen van gestructureerde uitvoerformaten.
Ideeën voor veiliger AI in klaslokalen
De auteurs betogen dat deze problemen niet alleen bugs in een bepaald model zijn, maar voortkomen uit de manier waarop educatieve prompts zijn ontworpen. Omdat de tekst van de student zowel bewijs vormt als een mogelijke bron van instructies, vervaagt de grens tussen "wat te beoordelen" en "hoe te beoordelen". Ze verkennen verdedigingsstrategieën die proberen deze grens te herstellen, zoals eerst het belangrijkste bewijs extraheren en dan alleen dat scoren, een onafhankelijke controleerder toevoegen om cijfers te verifiëren aan de hand van de rubric, en strikte koppelingen afdwingen tussen scores en geciteerde bewijzen. Deze ideeën zijn bedoeld om het moeilijker te maken voor verborgen instructies om de eindbeslissing te beïnvloeden zonder opgemerkt te worden.
Wat dit betekent voor de toekomst van AI-beoordeling
Al met al laat de studie zien dat AI-systemen die worden gebruikt voor beoordeling en tutoring stilletjes kunnen worden gemanipuleerd door studenten die begrijpen hoe ze hun antwoorden moeten formuleren. Omdat deze hulpmiddelen nu betrokken zijn bij beslissingen met grote gevolgen, van cursuscijfers tot professionele certificaten, dringen de auteurs er bij ontwerpers en onderwijzers op aan om beveiliging als een kernvereiste te beschouwen, niet als een bijzaak. Het bouwen van veiligere prompts, het toevoegen van controles op hoe bewijs scores ondersteunt, en het routinematig testen van systemen met adversariële inputs zullen essentiële stappen zijn om door AI gesteund onderwijs eerlijk en betrouwbaar te houden.
Bronvermelding: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1
Trefwoorden: prompt-injectie, AI-beoordelingsbeveiliging, educatieve grote taalmodellen, geautomatiseerde beoordeling, beroepsonderwijs