Clear Sky Science · ar

التعلم التجميعي لتنبؤ مؤشر جودة الهواء: دمج التعزيز التدرجي وXGBoost والتكديس مع قابلية تفسير تعتمد على SHAP

2026-02-12 · العودة إلى الفهرس

لماذا يحتاج الهواء الأنظف إلى توقعات أكثر ذكاءً

يُنظّم تلوّث الهواء حياتنا اليومية بصمت، من الهواء الذي نتنفسه في طريقنا إلى العمل إلى صحة أطفالنا وكبار السن. ومع ذلك فإن معظمنا لا يرى سوى رقم واحد لجودة الهواء في تطبيق الهاتف، من دون أن يعرف كيف تم التنبؤ بهذا الرقم أو مدى موثوقيته. تستعرض هذه الورقة نهجًا جديدًا وأكثر ذكاءً لتوقع مؤشر جودة الهواء (AQI) باستخدام فريق من النماذج الحاسوبية المتعاونة. من خلال جعل هذه التنبؤات أكثر دقة وشفافية، يوجه هذا العمل نحو تحذيرات صحية أكثر توقيتًا، وتخطيط مدن أفضل، وخيارات يومية أكثر وعيًا.

كيف يؤثر الهواء الملوّث على الناس والمدن

تبدأ الدراسة بتوضيح كيف تغذي الحياة الحديثة تلوّث الهواء. يطلق النمو الحضري السريع، والازدحام المروري الكبير، والإنشاءات المتسارعة، وحرق الوقود الأحفوري مزيجًا من الملوثات الضارة إلى الغلاف الجوي. الجسيمات الدقيقة (PM2.5 وPM10) والغازات مثل الأوزون وأكاسيد النيتروجين وثاني أكسيد الكبريت وأول أكسيد الكربون تُلحق الضرر بالرئتين وتجهد القلب وترتبط بملايين الوفيات المبكرة كل عام. إلى جانب التأثيرات الصحية، يضر الهواء الملوّث بالمحاصيل ويؤدي إلى تآكل المباني ويخفض إنتاجية العمال ويفاقم تغير المناخ. وبما أن هذه الآثار واسعة النطاق ومكلفة، تحتاج المدن عاجلًا إلى توقعات موثوقة يمكن أن تحذر السكان مسبقًا وتوجّه قيود المرور والصناعة وتدعم سياسات بيئية طويلة الأمد.

تحويل بيانات الهواء المعقدة إلى رقم صحي واحد

يجمع مؤشر جودة الهواء العديد من القياسات في مقياس واحد يمتد من الهواء النظيف إلى الخطِر. لتوقع هذا الرقم، استخدم الباحثون مجموعة بيانات مفتوحة هائلة من تايوان: أكثر من 4.6 مليون سجل بالساعات من 74 محطة مراقبة جمعت بين 2016 و2024. يسرد كل سجل مستويات الملوثات الرئيسية، والمتوسطات قصيرة الأمد التي تلتقط التعرض الأخير، وظروف الطقس مثل سرعة الرياح واتجاهها. قام الفريق أولًا بتنقية البيانات، ومعالجة القيم المفقودة والشواذ بعناية، وتوحيد الأرقام بحيث لا تهيمن قياس واحد على البقية. ثم خصصوا أجزاء منفصلة للتدريب والضبط والاختبار، وقلّدو حتى الزمن الحقيقي بفحص مدى أداء النماذج على سنوات لاحقة لم ترها الخوارزميات مسبقًا.

بناء فريق من النماذج بدلاً من الاعتماد على واحد فقط

بدلاً من الاعتماد على صيغة تنبؤية واحدة، بنى المؤلفون نموذجًا "تجميعيًا" — نظام تصويت مرجح يجمع عدة طرق شجرية قوية. تشمل هذه الطرق التعزيز التدرجي وXGBoost وLightGBM وCatBoost، وكل منها يتعلم الأنماط من خلال بناء العديد من أشجار القرار الصغيرة وتصحيح الأخطاء السابقة. يعطي التجميع وزنًا إضافيًا للأداء الأقوى (وزن أكبر للتعزيز التدرجي، وأقل بقليل لـ CatBoost، وهكذا)، كما لو استمعنا بحزم أكبر إلى أكثر متنبئي الطقس دقة في لجنة. باستخدام إجراءات بحث صارمة والتحقق المتقاطع، ضبط المؤلفون إعدادات كل نموذج بعناية بحيث تلتقط النماذج مجتمعة الروابط غير الخطية الدقيقة بين الملوثات والطقس ومؤشر جودة الهواء مع تجنّب الإفراط في التكيّف مع بيانات الماضي.

تفوق على التعلم العميق وفهم ما داخل الصندوق الأسود

قارن المؤلفون هذا التجميع بمجموعة واسعة من البدائل، من الانحدار الخطي البسيط وأشجار القرار الأساسية إلى أنظمة التعلم العميق الحديثة مثل LSTM وCNN-LSTM وشبكات Transformer. على مقاييس رئيسية لخطأ التنبؤ، جاء التجميع متقدمًا باستمرار. حقق خطأً منخفضًا للغاية وفسّر أكثر من 99٪ من التباين في AQI على بيانات لم تُرَ من قبل، ولم يتراجع دقته إلا قليلاً عند اختباره على فترات زمنية مستقبلية، وهو مؤشر على المتانة في ظل ظروف متغيرة. لفتح "الصندوق الأسود"، استخدم الفريق أدوات تفسير مثل مخططات الاعتماد الجزئي وقيم SHAP. تكشف هذه الأدوات أي المدخلات هي الأهم وكيف تؤثر على التنبؤ. تبرز النتائج الجسيمات الدقيقة (PM2.5 ومتوسطها قصير الأمد)، والأوزون على مدى ثماني ساعات، ومتوسطات PM10 باعتبارها السواقط الأكثر تأثيرًا على AQI. كما تكشف عن سلوكيات عتبية، مثل القفزة الحادة في المخاطر المتوقعة عندما يتجاوز ثاني أكسيد الكبريت مستوى معينًا، مؤكدة أن النظام يتعلم أنماطًا ذات صلة بالصحة.

ماذا يعني هذا للحياة اليومية والمدن المستقبلية

بالنسبة لغير المتخصصين، الرسالة الرئيسية هي أن توقعات جودة الهواء يمكن أن تكون دقيقة جدًا ومفهومة في الوقت نفسه. من خلال الجمع بين عدة نماذج مكملة وتسليط الضوء على كيفية اتخاذها للقرارات، يقدم هذا العمل محرك تنبؤ يمكن للمدن توصيله إلى أنظمة المراقبة في الزمن الحقيقي. يمكن لأداة من هذا النوع أن تفعّل تحذيرات صحية مبكرة، وتوجّه تخطيط المدارس والنشاطات الخارجية، أو تدعم قيود مرور مستهدفة في الأيام التي يكون فيها الاحتمال مرتفعًا لارتفاع التلوث. وبما أن النهج يستخدم قياسات روتينية للملوثات والطقس، فيمكن تكييفه لمناطق أخرى وإعادة تدريبه مع تغير الظروف، وإقرانه بأساليب مكانية جديدة لتغطية كامل النطاق الحضري. باختصار، يمكن أن يصبح التنبؤ الأذكى والأكثر شفافية لمؤشر جودة الهواء لبنة عملية لبناء مدن أكثر صحة ومتانة.

الاستشهاد: Singh, S., Kumar, M., Sengar, V. et al. Ensemble learning for air quality index prediction: integrating gradient boosting, XGBoost, and stacking with SHAP-based interpretability. Sci Rep 16, 8544 (2026). https://doi.org/10.1038/s41598-026-39232-w

الكلمات المفتاحية: مؤشر جودة الهواء, التعلم التجميعي, التعزيز التدرجي, تنبؤ التلوّث, قابلية تفسير النماذج