Clear Sky Science · ru
Оценка процентного ранга образования на уровне сообществ в Китае с использованием многопрофильных больших данных и машинного обучения
Почему уровень образования в вашем районе важен
То, где мы живём, влияет на школы, в которые ходят наши дети, на безопасность улиц и даже на стоимость жилья. В Китае базовая информация о том, насколько образованы разные районы, долгое время была труднодоступна. Это исследование меняет ситуацию: с его помощью, используя спутниковые снимки, уличные фотографии и современные вычислительные алгоритмы, оценили относительный уровень образования более чем в 120 000 сообществ по всей стране, предложив новый взгляд на социальное неравенство и городскую жизнь.
Взгляд дальше лет обучения
Большинство статистик сравнивают образование по числу лет, проведённых в школе. Но это может вводить в заблуждение при сравнении поколений. Аттестат средней школы когда-то ставил человека близко к вершине его возрастной группы; сегодня многие из их детей имеют университетские дипломы. Авторы вместо этого используют «процентный ранг образования», который показывает положение человека внутри собственного когорты по шкале от 0 (наименее образованные) до 100 (наиболее образованные). Так пожилой человек с неполным средним образованием и молодой со степенью бакалавра могут занимать сопоставимые социальные позиции, если оба, скажем, находятся около 70-го процентили своего поколения.
Преобразование городских ландшафтов в социальные подсказки
Чтобы картировать процентные ранги образования на уровне сообществ, команда использовала шесть волн крупного национального опроса и широкий набор «больших данных», описывающих застроенную среду. Они анализировали, какие объекты окружают каждый район — магазины, школы, больницы, парки и офисы — насколько плотна застройка и дорожная сеть, насколько ярко район светится ночью на спутниковых снимках и сколько людей обычно присутствует. Из миллионов уличных фотографий с помощью компьютерного зрения измеряли зелёные насаждения, тротуары, движение транспорта, признаки беспорядка, такие как мусор или граффити, и даже то, насколько улица, по видимости, богатая или безопасная для наблюдателя. Также учитывали рельеф — высоту и крутизну склонов, поскольку крутые или удалённые участки часто отстают в развитии. 
Обучая машины «читать» город
Имея эти данные, исследователи обучили мощную модель машинного обучения (XGBoost) выявлять связь между физическими характеристиками сообщества и средним процентным рангом образования его жителей. Сначала они аккуратно заполнили пробелы в экологических данных с помощью статистической «импутации», чтобы отсутствующие значения не искажали результаты. Затем они настраивали внутренние параметры модели через сотни оптимизационных прогонов, оценивая качество по тому, насколько хорошо модель могла предсказывать ранги образования для опрошенных сообществ, которых она не видела ранее. Финальная модель объясняла более 90 процентов различий между сообществами на тестовых данных, с небольшими погрешностями — это более высокие показатели, чем у аналогичных проектов в других странах.
Что показывает новая национальная карта
Вооружившись обученной моделью, авторы предсказали средние процентные ранги образования для 122 126 сообществ по материковому Китаю в 2020 году, охватив большую часть урбанизированных территорий и около 85 процентов населения. Как правило, центры городов оказываются наиболее образованными, затем следуют вторичные узлы и отдалённые пригороды, хотя у каждого мегаполиса свой паттерн. Историческое ядро Пекина, например, не содержит самых высоких рангов, в то время как в Шэньчжэне зоны с высоким уровнем образования распределены по нескольким центрам. Для проверки надёжности команда сопоставляла свои оценки с официальными данными переписи и с доступными коммерческими записями служб определения местоположения. На уровне префектур и уездов районы с более высокими предсказанными рангами также демонстрируют больше лет обучения по переписи. На уровне районов в Пекине и Гуанчжоу их карта сильно коррелирует как с корпоративными, так и с переписными эталонами. 
Почему это важно в повседневной жизни
Для политиков, градостроителей и исследователей этот новый открытый набор данных предлагает детальную, актуальную картину образовательных преимуществ и отставаний по китайским городам. Его можно использовать для изучения формирования средних слоёв, степени распространения джентрификации или того, какие районы нуждаются в лучших школах, социальных службах или общественном транспорте. Для неспециалистов главный вывод прост: «читая» улицы, огни и здания района, современные инструменты анализа данных способны с удивительной точностью приблизиться к социальной позиции его жителей. Эта работа не заменяет традиционные переписи, но даёт быстрый и недорогой способ заполнить пробелы между ними и лучше понять, как места, которые мы строим, отражают и усиливают наши социальные разделения.
Цитирование: Zhang, Y., Pan, Z., You, Y. et al. Community-level education percentile rank estimation in China using multi-source big data and machine learning. Sci Data 13, 304 (2026). https://doi.org/10.1038/s41597-026-06664-y
Ключевые слова: образовательное неравенство, городской Китай, большие данные, машинное обучение, районы