Clear Sky Science · tr
Çok kaynaklı büyük veri ve makine öğrenmesi kullanarak Çin’de topluluk düzeyinde eğitim yüzdelik sıra tahmini
Mahallenizin eğitim düzeyi neden önemli
Yaşadığımız yer, çocuklarımızın gittiği okulları, sokaklarımızın güvenliğini ve hatta evlerimizin değerini belirler. Yine de Çin’de farklı mahallelerin ne kadar eğitimli olduğuna dair temel bilgiler uzun süre zor bulunmuştur. Bu çalışma, uydu görüntüleri, sokak fotoğrafları ve gelişmiş bilgisayar algoritmaları kullanarak ülke çapında 120.000’den fazla topluluğun göreli eğitim düzeyini tahmin ederek sosyal eşitsizlik ve kentsel yaşam hakkında yeni bir bakış açısı sunuyor.
Okul yıllarının ötesine bakmak
Çoğu istatistik, eğitim düzeyini insanların okulda geçirdikleri yıl sayısını sayarak karşılaştırır. Ancak bu kuşaklar arasında yanıltıcı olabilir. Bir zamanlar lise diploması birini kendi yaş grubunda üst sıralara koyarken, bugün çocuklarının çoğu üniversite derecesine sahip olabilir. Yazarlar bunun yerine bir kişinin kendi doğum kohortu içindeki konumunu 0 (en az eğitimli) ile 100 (en çok eğitimli) arasında gösteren “eğitim yüzdelik sıra”sını kullanır. Böylece örneğin yalnızca ortaokul eğitimi almış daha yaşlı bir kişi ile lisans derecesine sahip daha genç bir kişi, her ikisi de kendi kuşağında yaklaşık 70. yüzdelikteyse benzer sosyal konuma sahip olarak değerlendirilebilir.
Şehir manzaralarını sosyal ipuçlarına dönüştürmek
Eğitim yüzdelik sıralarını topluluk düzeyinde haritalamak için ekip, altı dalgadan oluşan büyük bir ulusal anketin yanı sıra yapılaşmış çevreyi tanımlayan geniş bir “büyük veri” yelpazesinden yararlandı. Her mahallenin çevresinde hangi tür yerlerin bulunduğuna—dükkanlar, okullar, hastaneler, parklar ve ofisler—bina ve yol yoğunluğuna, uydu görüntülerinde geceleri alanın ne kadar parlak göründüğüne ve tipik olarak kaç kişinin bulunduğuna baktılar. Milyonlarca sokak görünümü fotoğrafından, bilgisayarlı görü kullanarak yeşil alanı, kaldırımları, trafiği, çöp veya grafiti gibi düzensizlik işaretlerini ve hatta bir sokağın insan gözlemcilerine göre ne kadar zengin veya güvenli göründüğünü ölçtüler. Ayrıca dik yamaçlı veya uzak alanların genellikle kalkınmada geride kaldığı için yükselti ve eğim gibi arazi özelliklerini de hesaba kattılar. 
Makinelere şehri "okumayı" öğretmek
Bu bileşenlerle araştırmacılar, bir topluluğun fiziksel özellikleri ile sakinlerinin ortalama eğitim yüzdelik sırası arasındaki bağı öğrenmesi için güçlü bir makine öğrenmesi modeli (XGBoost olarak adlandırılan) eğittiler. Önce çevresel verilerdeki eksiklikleri dikkatli bir istatistiksel "tamamlama" (imputasyon) süreciyle doldurarak eksik değerlerin sonuçları çarpıtmasını engellediler. Ardından modeli yüzlerce optimizasyon çalışmasıyla ince ayar yaparak, performansı modelin daha önce görmediği anket toplulukları için eğitim sıralarını ne kadar iyi tahmin edebildiğine göre değerlendirdiler. Nihai model, test verilerindeki topluluklar arasındaki farkların %90’ından fazlasını açıklayabiliyor ve yalnızca küçük hatalar gösteriyordu—diğer ülkelerdeki benzer çabalardan daha güçlü bir performans.
Yeni ulusal haritanın ortaya koydukları
Eğitilmiş modelle, yazarlar 2020’de ana kara Çin’deki 122.126 topluluk için ortalama eğitim yüzdelik sıralarını tahmin ettiler; bu alanlar kentsel arazinin çoğunu ve nüfusun yaklaşık %85’ini kapsıyor. Kent merkezleri genel olarak en yüksek eğitim düzeyleri olarak öne çıkıyor; ardından ikincil merkezler ve daha uzak banliyöler geliyor, ancak her metropolün kendi düzeni var. Örneğin Pekin’in tarihi çekirdeği en yüksek sıraları barındırmazken, Shenzhen’in yüksek eğitimli bölgeleri birden çok merkezde dağılmış durumda. Güvenilirliği kontrol etmek için ekip, tahminlerini resmi nüfus sayımı verileri ve mevcut olduğunda özel konuma dayalı hizmet kayıtlarıyla karşılaştırdı. İlçe düzeyinde ve ilçe düzeyinde (prefecture and county) daha yüksek tahmin edilen yüzdelik sıralara sahip bölgeler nüfus sayımında daha fazla eğitim yılı gösteriyor. Pekin ve Guangzhou’daki mahalle düzeyinde haritaları, hem kurumsal hem de nüfus sayımı kıyaslarıyla yakından örtüşüyor. 
Günlük yaşam için bunun önemi
Politika yapıcılar, planlamacılar ve araştırmacılar için bu yeni açık veri seti, Çin şehirleri genelinde eğitimsel avantaj ve dezavantajların ayrıntılı, güncel bir portresini sunuyor. Orta sınıf mahallelerin nerede oluştuğunu, kentsel dönüşümün ne kadar yayıldığını veya hangi ilçelerin daha iyi okullara, sosyal hizmetlere veya toplu taşımaya ihtiyaç duyduğunu incelemek için kullanılabilir. Genel okuyucu için temel mesaj basit: bir mahallenin sokaklarını, ışıklarını ve binalarını "okuyarak", modern veri araçları sakinlerinin sosyal konumunu şaşırtıcı bir doğrulukla yaklaşık olarak tahmin edebilir. Bu çalışma geleneksel nüfus sayımlarının yerini almaz, ancak aralarındaki boşlukları doldurmak ve inşa ettiğimiz yerlerin sosyal bölünmelerimizi nasıl yansıttığını ve güçlendirdiğini daha iyi anlamak için hızlı, düşük maliyetli bir yol sağlar.
Atıf: Zhang, Y., Pan, Z., You, Y. et al. Community-level education percentile rank estimation in China using multi-source big data and machine learning. Sci Data 13, 304 (2026). https://doi.org/10.1038/s41597-026-06664-y
Anahtar kelimeler: eğitim eşitsizliği, kentsel Çin, büyük veri, makine öğrenmesi, mahalleler