Clear Sky Science · es
IA explicable en la educación: integración del conocimiento del dominio educativo en el modelo de aprendizaje profundo para mejorar la predicción del rendimiento estudiantil
Por qué importan predicciones más inteligentes sobre los estudiantes
Las escuelas recurren cada vez más a la inteligencia artificial para detectar qué estudiantes podrían tener dificultades y quiénes necesitan apoyo adicional. Pero cuando estos sistemas funcionan como cajas negras cerradas, pueden señalar patrones extraños —por ejemplo, que la vida sentimental de un adolescente importe más que su tiempo de estudio— dejando a docentes y familias inseguros sobre si confiar en los resultados. Este artículo muestra cómo construir un sistema de predicción del rendimiento estudiantil que no solo ofrece mejores pronósticos de las notas de matemáticas, sino que también “razona” de maneras coherentes con lo que décadas de investigación educativa ya nos enseñan.
De los datos crudos a las alertas de riesgo
Los investigadores trabajaron con un conocido conjunto de datos público de 395 estudiantes de secundaria portugueses, cada uno descrito por 30 variables. Estas iban desde datos demográficos básicos (edad, sexo, tamaño de la familia) hasta detalles relacionados con la escuela (tiempo de estudio, ausencias, clases extra) y aspectos de la vida social y el bienestar (relaciones familiares, tiempo libre, salir con amigos). El objetivo fue predecir la nota final de matemáticas de cada alumno y luego agruparlos en tres categorías prácticas: probable suspenso, en camino (on track) o desempeño excelente. Se entrenó un modelo de aprendizaje profundo denominado red neuronal artificial (ANN) para captar patrones sutiles entre todos estos factores.

Cuando la caja negra se equivoca
Aunque la ANN original alcanzó una precisión respetable, una inspección más detallada reveló algo preocupante. Usando una técnica moderna de explicación conocida como SHAP, los autores examinaron en qué características se apoyaba más el modelo. Algunas de sus señales más fuertes chocaban con hallazgos educativos bien establecidos. Por ejemplo, la escuela a la que asistía un alumno, su estado romántico y la frecuencia con la que salía parecían inusualmente influyentes, mientras que factores respaldados por la investigación como la educación de los padres, la ocupación de la madre, la asistencia temprana a la guardería, el tamaño de la familia y el tiempo semanal de estudio recibían sorprendentemente poco peso. Estas discrepancias sugerían que la ANN se estaba anclando a peculiaridades de este conjunto de datos en particular en lugar de a relaciones que los educadores consideran relevantes o justas.
Enseñar a la red lo que los educadores ya saben
Para realinear el modelo con el conocimiento educativo, los autores propusieron una nueva estrategia de entrenamiento llamada algoritmo Students’ Performance Prediction Explanation (SPPE). Primero, revisaron la literatura educativa para clasificar las características en dos grupos generales: aquellas consistentemente vinculadas al rendimiento (como el tiempo de estudio, la educación de los padres y las expectativas de educación superior) y aquellas que son predictores más débiles o inciertos (como el estado romántico o las valoraciones genéricas de las relaciones familiares). Durante el entrenamiento, SPPE empuja a la red neuronal a aumentar su dependencia del primer grupo y atenuar la del segundo. Lo hace monitorizando cuánto contribuye cada característica a las predicciones y añadiendo una penalización suave siempre que el patrón de importancia aprendido por la red se desvíe de este conocimiento del dominio.

Explicaciones más claras y predicciones más agudas
Tras los ajustes con SPPE, el razonamiento interno del modelo cambió de formas que encajaban mejor con las expectativas de los educadores. El tiempo de estudio, el trasfondo de los padres, el tamaño de la familia y la escolarización temprana subieron en la escala de importancia, mientras que la identidad de la escuela, salir y el estado romántico perdieron protagonismo. Tan importante como eso, esta realineación no sacrificó la precisión: la mejoró. Al predecir en cuál de las tres bandas de nota caería un estudiante, la red mejorada clasificó correctamente a alrededor de dos tercios de los alumnos, frente a poco más de un tercio del modelo original. Medidas estándar de precisión, recall y una puntuación F1 combinada aumentaron sustancialmente, y las pruebas estadísticas confirmaron que las ganancias difícilmente se debían al azar. Los autores también demostraron que la misma estrategia SPPE mejoró varios otros diseños de redes neuronales, lo que sugiere que el enfoque es robusto y no un truco puntual.
Qué implica esto para las aulas y la IA
Para docentes y responsables de políticas, el estudio ofrece una salida a la incómoda elección entre modelos precisos pero opacos y modelos transparentes pero débiles. Al incorporar la experiencia humana en el propio proceso de aprendizaje, SPPE produce predicciones que son a la vez más fiables y más fáciles de justificar: el tiempo dedicado al estudio y las ambiciones educativas a largo plazo cuentan más que la escuela a la que asiste un estudiante por casualidad. Aunque el trabajo se centra en un conjunto de datos de matemáticas de Portugal, el mensaje más amplio es que la IA explicable guiada por conocimiento puede apoyar decisiones sobre el apoyo estudiantil más justas y mejores, siempre que el contexto local y el juicio experto se integren desde el principio.
Cita: Qiang, M., Liu, Z. & Zhang, R. Explainable AI in education: integrating educational domain knowledge into the deep learning model for improved student performance prediction. Sci Rep 16, 9515 (2026). https://doi.org/10.1038/s41598-026-40538-y
Palabras clave: predicción del rendimiento estudiantil, IA explicable, minería de datos educativos, redes neuronales en educación, integración de conocimiento del dominio