Clear Sky Science · nl

Verbetering van geautomatiseerde scoring van IELTS-writing met M-LoRA fijn afgestelde LLAMA-3 en door menselijk feedback aangedreven PPO-versterkend leren

2026-03-27 · Terug naar het overzicht

Waarom slimmer essayhulp ertoe doet

Voor miljoenen mensen per jaar kan het IELTS-examen deuren openen naar studie, werk of emigratie naar het buitenland. Toch hebben veel kandidaten vooral moeite met het schrijftoetsgedeelte, waar het krijgen van duidelijke, betrouwbare feedback lastig is en het betalen van menselijke tutors duur kan zijn. Dit artikel onderzoekt een nieuwe manier om kunstmatige intelligentie niet alleen te gebruiken om IELTS-essays te scoren, maar ook om gedetailleerde, mensachtige suggesties te geven die schrijvers daadwerkelijk helpen verbeteren, terwijl ze nauw aansluiten bij de manier waarop echte beoordelaars denken.

De uitdaging van het beoordelen van schrijven

Het beoordelen van de kwaliteit van een essay is complexer dan het controleren van spelling of het tellen van woorden. Menselijke beoordelaars kijken naar hoe goed de schrijver de vraag beantwoordt, hoe duidelijk ideeën zijn georganiseerd, hoe rijk en nauwkeurig het vocabulaire is, en hoe correct en gevarieerd de grammatica lijkt. Bestaande geautomatiseerde scoremethoden werken vaak alleen goed op smalle, vaste vraagsets en kunnen "vergeten" hoe ze eerdere typen essays moeten beoordelen wanneer ze aan nieuwe worden blootgesteld. Grote taalmodellen zoals GPT-4 hebben veelbelovend werk laten zien, maar wanneer ze rechtstreeks worden gebruikt, slagen ze er nog steeds niet altijd in om menselijke scores te evenaren en geven ze de neiging tot generieke, one-size-fits-all feedback.

Het opbouwen van een rijke IELTS-writing dataset

Om deze grenzen te verleggen, creëerden de auteurs eerst een nieuwe privé-dataset van 5.088 echte IELTS Writing Task 2-essays geschreven door Chinese leerlingen. Elk essay werd voorzien van scores van ervaren IELTS-docenten op de vier officiële criteria: Task Response, Coherence and Cohesion, Lexical Resource en Grammatical Range and Accuracy. Belangrijk is dat docenten ook fijnmazige feedback leverden die problemen aangaf zoals onduidelijke ideeën, haperende verbindingen tussen zinnen of zwak vocabulaire, plus voorgestelde herschrijvingen. Deze rijke annotatie gaat veel verder dan typische openbare datasets en vormt de basis voor het trainen en testen van het nieuwe systeem.

Een driefasige intelligente schrijfcoach

Het voorgestelde systeem is gebouwd op LLaMA‑3, een modern groot taalmodel, verbeterd met een lichtgewicht afstemmingsmethode genaamd Multi‑task LoRA. In de eerste stap wordt het model getraind om meerdere taken tegelijk af te handelen: voor een gegeven essay voorspelt het een bandscore voor elk van de vier IELTS-criteria en genereert het gerichte opmerkingen voor elk gebied. Aparte "heads" richten zich op elk kenmerk, terwijl ze een gemeenschappelijk begrip van de tekst delen, wat het model helpt het gebruikelijke "catastrophic forgetting" te voorkomen wanneer het met veel verschillende prompts wordt geconfronteerd.

Het de AI leren waarderen van goede feedback

In de tweede stap trainen de auteurs een afzonderlijk beloningsmodel dat leert de kwaliteit van de feedback zelf te beoordelen door door het model gegenereerde opmerkingen te vergelijken met door docenten geschreven opmerkingen. Dit beloningsmodel fungeert tijdens de training als plaatsvervanger voor menselijke beoordelaars. In de derde stap wordt het hoofdsysteem verder verfijnd met behulp van een versterkend leeralgoritme dat bekendstaat als PPO. Hierbij genereert het model feedback, beoordeelt het beloningsmodel hoe goed die feedback overeenkomt met de voorkeuren van experts, en past het systeem zijn gedrag aan om over vele cycli naar hogere kwaliteit en meer beoordelaarachtige reacties te bewegen.

Wat de resultaten betekenen voor leerlingen en docenten

Bij tests behaalde het nieuwe systeem een hogere overeenstemming met menselijke scores dan krachtige alternatieven, waaronder GPT‑4 met verschillende prompting-methoden, en produceerde het feedback die automatische maatstaven en menselijke beoordelaars dichter bij de deskundige opmerkingen vonden. Hoewel de numerieke winst in scorenauwkeurigheid bescheiden is, ligt de echte kracht van het systeem in het leveren van gedetailleerd, rubric-gebonden en gepersonaliseerd advies dat lijkt op wat een bekwame docent zou schrijven. Voor IELTS-kandidaten wijst deze benadering op betaalbare, altijd beschikbare schrijfhulp die meer doet dan alleen een bandscore toekennen—het legt uit waarom, en hoe je de volgende keer beter kunt presteren.

Bronvermelding: Xu, W., Kassim, M.S.S. & Mahmud, R. Enhancing IELTS writing automated scoring with M-LoRA fine-tuned LLAMA-3 and human feedback-driven PPO reinforcement learning. Sci Rep 16, 10865 (2026). https://doi.org/10.1038/s41598-026-43318-w

Trefwoorden: geautomatiseerde essaybeoordeling, IELTS schrijven, grote taalmodellen, educatieve feedback, versterkend leren