Clear Sky Science · es

Estimación del percentil de educación a nivel comunitario en China usando datos masivos multisource y aprendizaje automático

· Volver al índice

Por qué importa el nivel educativo de tu barrio

El lugar donde vivimos determina las escuelas a las que asisten nuestros hijos, la seguridad de nuestras calles e incluso el valor de nuestras viviendas. Sin embargo, en China, la información básica sobre el grado de instrucción de los distintos barrios ha sido difícil de obtener durante mucho tiempo. Este estudio cambia eso al usar imágenes satelitales, fotos callejeras y algoritmos informáticos avanzados para estimar el nivel educativo relativo de más de 120.000 comunidades en todo el país, ofreciendo una nueva perspectiva sobre la desigualdad social y la vida urbana.

Más allá de los años de escolaridad

La mayoría de las estadísticas comparan la educación contando cuántos años pasó la gente en la escuela. Pero esto puede inducir a error entre generaciones. Un diploma de secundaria colocaba antiguamente a alguien cerca de la cima de su cohorte; hoy, muchos de sus hijos tienen títulos universitarios. Los autores usan en cambio un “percentil de educación”, que indica la posición de una persona dentro de su cohorte de nacimiento, de 0 (menos educado) a 100 (más educado). De este modo, una persona mayor con solo educación media y una persona joven con una licenciatura pueden reconocerse como ocupando un estatus social similar si ambos se sitúan, por ejemplo, alrededor del percentil 70 de su generación.

Convertir el paisaje urbano en pistas sociales

Para mapear los percentiles de educación a nivel comunitario, el equipo se basó en seis oleadas de una gran encuesta nacional junto con una amplia variedad de “big data” que describen el entorno construido. Analizaron qué tipos de lugares rodean cada barrio—comercios, escuelas, hospitales, parques y oficinas—la densidad de edificios y vías, el brillo nocturno observado por satélite y cuánta gente suele estar presente. A partir de millones de fotos de vistas callejeras, emplearon visión por computador para medir espacios verdes, aceras, tráfico, indicios de abandono como basura o grafitis e incluso la percepción de riqueza o seguridad de una calle según observadores humanos. También consideraron el terreno, como altitud y pendiente, ya que las zonas empinadas o remotas suelen quedar rezagadas en desarrollo.

Figure 1
Figure 1.

Enseñar a las máquinas a leer la ciudad

Con estos insumos, los investigadores entrenaron un potente modelo de aprendizaje automático (llamado XGBoost) para aprender la relación entre las características físicas de una comunidad y el percentil educativo medio de sus residentes. Primero imputaron cuidadosamente los huecos en los datos ambientales mediante un proceso estadístico para que los valores faltantes no sesgaran los resultados. Luego ajustaron los parámetros internos del modelo mediante cientos de ejecuciones de optimización, evaluando el desempeño por la capacidad del modelo de predecir los percentiles educativos de comunidades encuestadas que no había visto antes. El modelo final pudo explicar más del 90 por ciento de las diferencias entre comunidades en los datos de prueba, con errores pequeños—un rendimiento superior al de esfuerzos similares en otros países.

Qué revela el nuevo mapa nacional

Con el modelo entrenado, los autores predijeron los percentiles educativos medios para 122.126 comunidades en la China continental en 2020, cubriendo la mayor parte del suelo urbano y alrededor del 85 por ciento de la población. Los centros urbanos tienden a aparecer como los más educados, seguidos por núcleos secundarios y luego por suburbios lejanos, aunque cada metrópoli tiene su propio patrón. Por ejemplo, el núcleo histórico de Pekín no concentra los percentiles más altos, mientras que las zonas muy educadas de Shenzhen se distribuyen en varios centros. Para comprobar la fiabilidad, el equipo comparó sus estimaciones con datos censales oficiales y con registros propietarios de servicios basados en la localización cuando estaban disponibles. A escala de prefectura y condado, las áreas con percentiles predichos más altos también muestran más años de escolaridad en el censo. A nivel de barrio en Pekín y Guangzhou, su mapa se alinea estrechamente con ambos puntos de referencia, corporativos y censales.

Figure 2
Figure 2.

Por qué esto importa en la vida cotidiana

Para responsables políticos, planificadores e investigadores, este nuevo conjunto de datos abierto ofrece un retrato detallado y actualizado de las ventajas y desventajas educativas en las ciudades chinas. Puede emplearse para estudiar dónde se están formando guetos de clase media, hasta qué punto se ha extendido la gentrificación o qué distritos pueden necesitar mejores escuelas, servicios sociales o transporte público. Para el lector general, el mensaje central es simple: “leyendo” las calles, las luces y los edificios de un barrio, las herramientas modernas de datos pueden aproximar con sorprendente precisión la posición social de sus residentes. Este trabajo no sustituye a los censos tradicionales, pero ofrece una forma rápida y de bajo coste de llenar los vacíos entre ellos y entender mejor cómo los lugares que construimos reflejan y refuerzan nuestras divisiones sociales.

Cita: Zhang, Y., Pan, Z., You, Y. et al. Community-level education percentile rank estimation in China using multi-source big data and machine learning. Sci Data 13, 304 (2026). https://doi.org/10.1038/s41597-026-06664-y

Palabras clave: desigualdad educativa, China urbana, big data, aprendizaje automático, barrios