Clear Sky Science · es
Desigualdad injusta en la educación: un punto de referencia para la investigación sobre equidad en la IA
Por qué esto importa para los estudiantes y la sociedad
En todo el mundo, las escuelas dependen cada vez más de datos y algoritmos para decidir quién necesita ayuda, quién tiene probabilidades de tener éxito e incluso quién accede a programas especiales. Pero si los datos que alimentan estos sistemas están sesgados, los algoritmos pueden profundizar la injusticia en vez de combatirla. Este artículo presenta un nuevo conjunto de datos educativos creado específicamente para que los investigadores puedan estudiar y reducir el trato injusto en la inteligencia artificial, con el objetivo de ayudar a todos los estudiantes —especialmente a los procedentes de entornos desfavorecidos— a beneficiarse de las herramientas basadas en datos.

Una nueva ventana a las aulas reales
El conjunto de datos procede de colegios públicos de las Islas Canarias, España, y sigue a más de cuarenta mil estudiantes a lo largo de varios cursos escolares. En lugar de limitarse a registrar las notas, combina información de los estudiantes, sus familias, sus profesores y los directores de los centros. Esto significa que recoge no solo el rendimiento en matemáticas, castellano e inglés, sino también la renta y la educación de la familia, los recursos de aprendizaje en el hogar, las prácticas docentes en el aula y cómo se sienten los estudiantes respecto al colegio. Al abarcar varios años y distintos niveles educativos, los datos permiten a los investigadores seguir la progresión de los niños y detectar dónde pueden quedarse rezagados o abandonar.
Convertir datos escolares desordenados en bancos de prueba justos
Los datos reales de educación son caóticos: contienen cientos de preguntas, muchos temas solapados y numerosas respuestas en blanco. Algunas familias omiten preguntas sensibles sobre ingresos o condiciones de vida, a menudo por miedo o estigma. En lugar de rellenar automáticamente esos huecos con conjeturas, los autores distinguen cuidadosamente entre respuestas faltantes aleatorias y aquellas que probablemente reflejan vulnerabilidad social. Para estas últimas evitan reparaciones automáticas que podrían ocultar la desigualdad en lugar de ponerla de manifiesto. Trabajando con expertos en educación y economía, agrupan preguntas relacionadas en un conjunto más pequeño de indicadores claros y promediados —por ejemplo, la frecuencia de uso de un ordenador por parte del estudiante o la solidez del vínculo con los profesores— mientras dejan intactos los patrones especialmente sensibles para que los investigadores los traten con precaución.

Mantener la historia en los números
Al reducir más de 500 preguntas de la encuesta a alrededor de 140 características existe un riesgo real de distorsionar la historia que cuentan los datos. Para comprobar que esto no ocurre, el equipo ejecuta una batería de pruebas estadísticas. Comparan los datos originales y los simplificados para ver si siguen codificando las mismas relaciones —tanto entre el contexto del estudiante y el rendimiento, como entre rasgos sensibles (como el género, el lugar de nacimiento o la renta familiar) y los resultados. Utilizando medidas avanzadas de dependencia y varias comprobaciones de equidad, demuestran que el nuevo conjunto de datos compacto preserva casi toda la información presente en el original y, lo que es crucial, no empeora ni mejora de forma artificial los patrones de injusticia ya existentes.
Qué pueden explorar los investigadores con este recurso
Como el conjunto de datos está disponible públicamente en un formato fácil de usar, ofrece un “banco de pruebas” común para muchos tipos de estudios. Los científicos pueden construir y comparar algoritmos para ordenar a los estudiantes ante plazas limitadas en programas, comprobando al mismo tiempo que la selección no perjudique a ciertos grupos. Pueden diseñar herramientas para detectar estudiantes que están quedando rezagados de forma silenciosa y explicar qué factores son los más responsables, para que docentes y responsables políticos puedan actuar. Los datos también respaldan modelos de alerta temprana para el abandono escolar y análisis más amplios sobre cómo los recursos familiares, el trabajo y la educación de los progenitores y el contexto escolar moldean las oportunidades de aprendizaje. Una documentación detallada y código de fuente abierta facilitan reproducir y ampliar el trabajo de los autores.
Cómo avanza la equidad en la IA educativa
En términos sencillos, el artículo entrega un conjunto de datos escolares cuidadosamente depurado y bien documentado que permite a los investigadores poner a prueba si sus algoritmos tratan a los estudiantes de forma justa. Respeta las leyes de privacidad, preserva los patrones reales en los datos —incluyendo los incómodos— y expone cómo las respuestas faltantes pueden, por sí mismas, señalar situaciones de dificultad. Al ofrecer tanto la información en bruto como una versión curada diseñada para uso algorítmico, los autores proporcionan a la comunidad una base compartida para construir, comparar y mejorar herramientas de IA que busquen apoyar a los estudiantes sin reforzar la desigualdad injusta.
Cita: Giovanelli, J., Magnini, M., Ciatto, G. et al. Unfair Inequality in Education: A Benchmark for AI-Fairness Research. Sci Data 13, 572 (2026). https://doi.org/10.1038/s41597-026-06827-x
Palabras clave: datos educativos, equidad algorítmica, rendimiento estudiantil, desigualdad socioeconómica, IA responsable