Clear Sky Science · es

Mejorar la puntuación automatizada del writing del IELTS con LLAMA-3 afinado mediante M-LoRA y aprendizaje por refuerzo PPO guiado por retroalimentación humana

2026-03-27 · Volver al índice

Por qué importa una ayuda más inteligente para los ensayos

Para millones de personas cada año, el examen IELTS puede abrir puertas para estudiar, trabajar o emigrar al extranjero. Sin embargo, muchos candidatos tienen más dificultades con la sección de writing, donde obtener una retroalimentación clara y fiable es difícil y pagar a profesores humanos puede ser caro. Este artículo explora una nueva forma de usar la inteligencia artificial no solo para puntuar los ensayos del IELTS, sino también para ofrecer sugerencias detalladas y similares a las humanas que ayudan a los escritores a mejorar realmente, manteniéndose además estrechamente alineada con el criterio de los examinadores reales.

El reto de evaluar la escritura

Evaluar la calidad de un ensayo es más complicado que comprobar la ortografía o contar palabras. Los examinadores humanos valoran qué tan bien el autor responde a la pregunta, cuán claras están organizadas las ideas, la riqueza y precisión del vocabulario y la corrección y variedad gramatical. Los sistemas de puntuación automatizada existentes a menudo funcionan bien solo en conjuntos de preguntas limitados y fijos, y pueden “olvidar” cómo juzgar tipos anteriores de ensayo cuando se exponen a nuevos. Los modelos de lenguaje a gran escala como GPT-4 han mostrado potencial, pero cuando se usan directamente todavía les cuesta igualar las puntuaciones humanas y tienden a ofrecer retroalimentación genérica y uniforme.

Construir un conjunto de datos rico para writing del IELTS

Para superar estos límites, los autores crearon primero un nuevo conjunto de datos privado con 5.088 ensayos reales de la tarea 2 del IELTS escritos por aprendices chinos. Cada ensayo incluía puntuaciones de profesores experimentados del IELTS según los cuatro criterios oficiales: Task Response, Coherence and Cohesion, Lexical Resource y Grammatical Range and Accuracy. De forma importante, los profesores también proporcionaron retroalimentación detallada señalando problemas como ideas poco claras, conexiones forzadas entre oraciones o vocabulario débil, además de sugerencias de reescritura. Esta anotación rica va mucho más allá de los conjuntos de datos públicos típicos y sirve como base para entrenar y evaluar el nuevo sistema.

Un entrenador de escritura inteligente en tres pasos

El sistema propuesto se basa en LLaMA‑3, un modelo de lenguaje a gran escala moderno, mejorado mediante un método de afinamiento ligero llamado Multi‑task LoRA. En el primer paso, el modelo se entrena para manejar varias tareas a la vez: para un ensayo dado, predice una banda para cada uno de los cuatro criterios del IELTS y genera comentarios dirigidos para cada área. «Cabezas» separadas se centran en cada rasgo, mientras comparten una comprensión común del texto, lo que ayuda al modelo a evitar el habitual «olvido catastrófico» al enfrentarse a muchos tipos distintos de indicaciones.

Enseñar a la IA a valorar la buena retroalimentación

En el segundo paso, los autores entrenan un modelo de recompensa separado que aprende a juzgar la calidad de la retroalimentación comparando los comentarios generados por el modelo con los escritos por los profesores. Este modelo de recompensa actúa como sustituto de los examinadores humanos durante el entrenamiento. En el tercer paso, el sistema principal se refina aún más usando un método de aprendizaje por refuerzo conocido como PPO. Aquí, el modelo genera retroalimentación, el modelo de recompensa evalúa cuánto se alinea esa retroalimentación con las preferencias expertas, y el sistema ajusta su comportamiento para tender hacia respuestas de mayor calidad y más similares a las de un examinador a lo largo de muchos ciclos.

Qué implican los resultados para estudiantes y profesores

En las pruebas, el nuevo sistema alcanzó una mayor concordancia con las puntuaciones humanas que alternativas potentes, incluyendo GPT‑4 con diversas indicaciones, y produjo retroalimentación que métricas automáticas y evaluadores humanos consideraron más cercana a los comentarios de expertos. Aunque las ganancias numéricas en precisión de puntuación son modestas, la verdadera fortaleza del sistema radica en ofrecer consejos detallados, basados en la rúbrica y personalizados, que se asemejan a lo que escribiría un profesor experto. Para los candidatos al IELTS, este enfoque apunta a un apoyo de escritura asequible y siempre disponible que hace más que asignar una banda: explica por qué y cómo mejorar la próxima vez.

Cita: Xu, W., Kassim, M.S.S. & Mahmud, R. Enhancing IELTS writing automated scoring with M-LoRA fine-tuned LLAMA-3 and human feedback-driven PPO reinforcement learning. Sci Rep 16, 10865 (2026). https://doi.org/10.1038/s41598-026-43318-w

Palabras clave: calificación automatizada de ensayos, writing del IELTS, modelos de lenguaje a gran escala, retroalimentación educativa, aprendizaje por refuerzo