Clear Sky Science · pt

Melhorando a pontuação automatizada da escrita do IELTS com M-LoRA afinado no LLAMA-3 e aprendizado por reforço PPO guiado por feedback humano

2026-03-27 · Voltar ao índice

Por que uma ajuda mais inteligente para redações importa

Para milhões de pessoas a cada ano, o exame IELTS pode abrir portas para estudar, trabalhar ou imigrar para o exterior. Ainda assim, muitos candidatos têm mais dificuldade na seção de escrita, onde obter feedback claro e confiável é difícil e contratar tutores humanos pode ser caro. Este artigo explora uma nova forma de usar inteligência artificial não apenas para pontuar redações do IELTS, mas também para oferecer sugestões detalhadas, parecidas com as humanas, que ajudam os escritores a realmente melhorar, mantendo-se alinhadas ao modo de pensar de examinadores reais.

O desafio de julgar a escrita

Avaliar a qualidade de uma redação é mais complicado do que verificar ortografia ou contar palavras. Examinadores humanos observam o quanto o autor responde bem à pergunta, quão claramente as ideias estão organizadas, quão rico e preciso é o vocabulário e quão correta e variada é a gramática. Sistemas de pontuação automatizada existentes costumam funcionar bem apenas em conjuntos de questões restritos e fixos e podem “esquecer” como avaliar tipos anteriores de redações ao serem expostos a novos. Grandes modelos de linguagem, como o GPT-4, mostraram potencial, mas quando usados diretamente ainda têm dificuldade em igualar as pontuações humanas e tendem a fornecer feedback genérico e padrão.

Construindo um conjunto de dados rico para escrita do IELTS

Para superar esses limites, os autores primeiro criaram um novo conjunto de dados privado com 5.088 redações reais da Tarefa 2 do IELTS escritas por alunos chineses. Cada redação veio com pontuações de professores experientes do IELTS nos quatro critérios oficiais: Resposta à Tarefa, Coerência e Coesão, Recursos Lexicais e Variedade e Precisão Gramatical. Importante: os professores também forneceram feedback detalhado apontando problemas como ideias pouco claras, ligações desconfortáveis entre frases ou vocabulário fraco, além de sugerirem reescritas. Essa anotação rica vai muito além dos conjuntos públicos típicos e serve de base para treinar e testar o novo sistema.

Um treinador de escrita inteligente em três etapas

O sistema proposto é construído sobre o LLaMA‑3, um modelo de linguagem moderno, aprimorado por um método de ajuste leve chamado Multi‑task LoRA. Na primeira etapa, o modelo é treinado para lidar com várias tarefas ao mesmo tempo: para qualquer redação, ele prevê uma nota (band score) para cada um dos quatro critérios do IELTS e gera comentários direcionados para cada área. “Cabeças” separadas focam em cada traço, enquanto compartilham uma compreensão comum do texto, o que ajuda o modelo a evitar o habitual “esquecimento catastrófico” quando enfrenta muitos prompts diferentes.

Ensinando a IA a valorizar bom feedback

Na segunda etapa, os autores treinam um modelo de recompensa separado que aprende a julgar a qualidade do próprio feedback comparando os comentários gerados pelo modelo com os escritos pelos professores. Esse modelo de recompensa atua como um substituto dos examinadores humanos durante o treino. Na terceira etapa, o sistema principal é refinado usando um método de aprendizado por reforço conhecido como PPO. Aqui, o modelo gera feedback, o modelo de recompensa pontua o quanto esse feedback está alinhado com as preferências dos especialistas, e o sistema ajusta seu comportamento para caminhar em direção a respostas de maior qualidade e mais semelhantes às de examinadores ao longo de muitos ciclos.

O que os resultados significam para alunos e professores

Ao ser testado, o novo sistema alcançou maior concordância com as pontuações humanas do que alternativas poderosas, incluindo o GPT‑4 acionado de várias maneiras, e produziu feedback que medidas automáticas e avaliadores humanos acharam mais próximo dos comentários de especialistas. Embora os ganhos numéricos na precisão da pontuação sejam modestos, a força real do sistema reside em oferecer conselhos detalhados, baseados em rubricas e personalizados, que se assemelham ao que um professor experiente escreveria. Para candidatos ao IELTS, essa abordagem aponta para um suporte de escrita acessível e disponível a todo momento que faz mais do que atribuir uma nota — explica por quê e como melhorar na próxima vez.

Citação: Xu, W., Kassim, M.S.S. & Mahmud, R. Enhancing IELTS writing automated scoring with M-LoRA fine-tuned LLAMA-3 and human feedback-driven PPO reinforcement learning. Sci Rep 16, 10865 (2026). https://doi.org/10.1038/s41598-026-43318-w

Palavras-chave: pontuação automática de redações, escrita do IELTS, grandes modelos de linguagem, feedback educacional, aprendizado por reforço