Clear Sky Science · es
IA en el aula: modelos de lenguaje grandes como profesores por nivel escolar
Ayuda docente de un compañero digital
En todo el mundo, millones de niños asisten a la escuela sin suficientes docentes cualificados y, aun en aulas bien dotadas, es difícil dar a cada estudiante explicaciones que realmente coincidan con su edad y su nivel de lectura. Este estudio explora si la inteligencia artificial moderna, en concreto los modelos de lenguaje grandes, pueden convertirse en “profesores por grado” que hablen de forma muy distinta a un alumno de primer curso que a un estudiante universitario, manteniendo al mismo tiempo la exactitud de los hechos.

Por qué importa adecuar las palabras a las edades
Una buena enseñanza no consiste solo en conocer la respuesta correcta, sino en decirla de una manera que el estudiante pueda entender. Los chatbots actuales pueden resolver muchos problemas, pero con frecuencia responden con un lenguaje demasiado avanzado, incluso cuando se les pide “explicar para un niño de 3.º curso”. Investigaciones previas probaron sobre todo trucos simples de indicaciones (prompts) y hallaron que resultaban insuficientes, especialmente para lectores más jóvenes. Los autores sostienen que, si la IA ha de apoyar el aprendizaje de forma justa en todo el mundo, debe producir de manera fiable explicaciones claras y adecuadas a la edad en una amplia gama de materias y preguntas, no limitarse a reescribir o acortar textos existentes.
Construir una escala para textos fáciles y difíciles
Para abordar esto, los investigadores necesitaron primero un método fiable para juzgar la dificultad de un texto. En lugar de confiar en una sola medida, combinaron siete fórmulas clásicas de legibilidad que evalúan aspectos como la longitud de las frases, la longitud de las palabras y cuántas palabras «difíciles» se usan. Agruparon estas fórmulas según su enfoque y luego crearon un sistema de votación integrado que asigna cada respuesta a una de seis bandas: primaria baja, primaria media, primaria alta, secundaria inferior, secundaria superior y universidad o adulto. Este sistema de puntuación más rico puede captar diferencias sutiles en la complejidad que una métrica aislada podría pasar por alto.
Entrenar la IA para hablar de seis maneras diferentes
Con esta escala de niveles de lectura, el equipo generó un gran conjunto de datos sintéticos. Utilizando varios modelos de lenguaje de última generación, formularon miles de preguntas abiertas en 54 asignaturas escolares, desde ciencias y salud hasta literatura y estudios sociales. Para cada pregunta, indicaron a un modelo de IA que produjera muchas respuestas diferentes, variando el nivel de curso pretendido y la longitud de las frases. Su herramienta integrada de legibilidad etiquetó entonces cada respuesta con una banda de grado real. Estos pares de pregunta-respuesta etiquetados se convirtieron en material de entrenamiento para ajustar finamente seis versiones separadas de un modelo de IA, cada una dirigida a un grupo de grados, de modo que el modelo de “primaria baja” use naturalmente oraciones cortas y palabras sencillas, mientras que el modelo “adulto” ofrezca explicaciones más largas y detalladas.

Cómo funcionaron los profesores por grado
Los autores evaluaron sus modelos con varios conjuntos de preguntas reales y sintéticas. Midieron la “compatibilidad”, es decir, la frecuencia con la que una respuesta alcanzaba realmente el nivel de grado objetivo, y la “precisión”, es decir, si la respuesta era fácticamente correcta y pertinente. En comparación con enfoques basados solo en indicaciones simples, los modelos ajustados mejoraron el éxito por nivel de grado en aproximadamente 36 puntos porcentuales de media, especialmente para el grupo más difícil de alcanzar: los alumnos de primaria. Es importante señalar que esta adaptación no perjudicó de forma sustancial la precisión en preguntas de ciencia. Encuestas con 208 participantes humanos, además de comprobaciones con otro juez IA, mostraron un elevado grado de acuerdo en que las respuestas de los distintos modelos por grado se volvían realmente más complejas y sofisticadas a medida que aumentaba el nivel académico.
Qué significa esto para las aulas y los estudiantes
El estudio concluye que los modelos de lenguaje grandes pueden reformarse para ser ayudantes confiables y conscientes del grado, que ajustan su lenguaje a las habilidades lectoras de los estudiantes manteniendo explicaciones correctas. Esto no resuelve todavía el problema más profundo de si un niño pequeño puede captar ideas muy abstractas, pero supone un paso importante hacia herramientas de IA que encuentren a los aprendices donde están. Si se desarrollan y despliegan con cuidado, tales tutores de IA por grado podrían ampliar el alcance de la enseñanza especializada, apoyar a docentes sobrecargados y ofrecer explicaciones más claras a estudiantes que actualmente carecen de acceso a una instrucción de calidad.
Cita: Oh, J., Whang, S.E., Evans, J. et al. Classroom AI: large language models as grade-specific teachers. npj Artif. Intell. 2, 28 (2026). https://doi.org/10.1038/s44387-026-00081-7
Palabras clave: tutoría con IA, legibilidad por grado, tecnología educativa, modelos de lenguaje grandes, aprendizaje personalizado