Clear Sky Science · zh

使用多源大数据和机器学习估算中国社区层面的教育百分位排名

· 返回目录

为什么你所在社区的教育水平很重要

我们的居住地点影响孩子上哪所学校、街道的安全程度,甚至房屋的价值。然而在中国,不同社区的教育水平等基本信息长期以来难以获取。本研究通过利用卫星影像、街景照片和先进的计算算法来估算全国超过12.2万个社区的相对教育水平,提供了一种观察社会不平等与城市生活的新视角。

超越受教育年限的比较

多数统计用受教育年限来比较教育程度,但这在代际间可能产生误导。一张高中毕业证在过去可能意味着在同龄人中位居前列;而今天,很多他们的子女已取得大学学位。作者改用“教育百分位排名”,它表明一个人在其出生同代中的位置,0表示最低教育水平,100表示最高。这样,一位只受过中学教育的年长者和一位拥有学士学位的年轻人,如果他们在各自世代中都处于例如第70百分位,就可以被视为具有相似的社会地位。

把城市景观变成社会线索

为了在社区层面绘制教育百分位排名,研究团队利用了六轮大型全国调查数据以及描述建成环境的多种“大数据”。他们考察了每个社区周边的场所类型——商店、学校、医院、公园和办公区;建筑和道路的密度;从卫星看夜间亮度;以及通常有多少人出现。通过对数以百万计的街景照片应用计算机视觉,他们衡量了绿地、人行道、交通状况、垃圾或涂鸦等失序迹象,甚至街道在人类观察者眼中看起来多么富裕或安全。他们还考虑了地形因素,如海拔和坡度,因为陡峭或偏远地区常常在发展上滞后。

Figure 1
Figure 1.

教机器“读懂”城市

基于这些要素,研究者训练了一个强大的机器学习模型(称为 XGBoost),以学习社区物理特征与居民平均教育百分位排名之间的关系。他们先通过谨慎的统计“插补”过程填补环境数据中的空缺,防止缺失值扭曲结果。然后通过数百次优化运行调整模型内部设置,按其预测模型未见过的调查社区教育排名的能力来评判性能。最终模型在测试数据上能够解释超过90%的社区差异,误差很小——比其他国家的类似工作表现更好。

新的全国地图揭示了什么

凭借训练好的模型,作者为2020年中国大陆122,126个社区预测了平均教育百分位排名,覆盖了大部分城市用地和约85%的人口。城市中心通常是教育水平最高的地区,其次是次级中心,再其次是远郊,但每个大都市都有自己的分布模式。例如,北京的历史核心并非教育排名最高的地方,而深圳的高学历区域则分布在多个中心。为检验可靠性,团队将其估计与可得的官方人口普查数据和专有的位置服务记录进行了比对。在地级市和县级层面,预测排名较高的地区在人口普查中也显示更高的受教育年限。在北京和广州的社区层面,他们的地图与企业数据和普查基准高度一致。

Figure 2
Figure 2.

这对日常生活意味着什么

对于政策制定者、规划者和研究者来说,这份新的开放数据集提供了中国城市教育优势与劣势的详细、最新画像。它可用于研究中产阶级聚居地的形成、城市绅士化的扩展程度,或哪些区可能需要更好的学校、社会服务或公共交通。对普通读者而言,核心信息很简单:通过“阅读”街道、灯光和建筑,现代数据工具可以惊人地准确地近似一个社区居民的社会地位。这项工作并不能取代传统人口普查,但它提供了一种快速、低成本的方法来填补普查之间的空白,并更好地理解我们建造的地方如何反映并强化社会分化。

引用: Zhang, Y., Pan, Z., You, Y. et al. Community-level education percentile rank estimation in China using multi-source big data and machine learning. Sci Data 13, 304 (2026). https://doi.org/10.1038/s41597-026-06664-y

关键词: 教育不平等, 中国城市, 大数据, 机器学习, 社区