Clear Sky Science · ar
تنبؤ دقيق وقابل للتفسير لمؤشر الطلب الكيميائي على الأكسجين باستخدام خوارزميات التعزيز القابلة للتفسير مع تحليل SHAP
لماذا يهم مراقبة أكسجين النهر
تُعد الأنهار شريان الحياة للمدن والمزارع، لكن عندما تمتلئ بالنفايات العضوية من المصانع أو المجاري أو الحقول، قد يُحرم الماء من الأكسجين ويصبح غير آمن للبشر والنُّظم البيئية. فحص شائع لصحة الأنهار هو «الطلب الكيميائي على الأكسجين» (COD)، وهو يقيس كمية الأكسجين اللازمة لتحليل التلوث. قياس COD في المختبر بطيء ومكلف، لذلك تبحث هذه الدراسة فيما إذا كانت أدوات تعلم الآلة المتقدمة والقابلة للتفسير يمكنها التنبؤ بـCOD بصورة موثوقة من بيانات الحساسات الروتينية — وفي الوقت نفسه توضح بجلاء ما الذي يسبب التلوث. 
نماذج ذكية لعالم ملوث
ركز الباحثون على محطتي رصد نهريتين في كوريا الجنوبية، هوانجي وتويلتشون، بالمجرى العلوي لسد يونغجو متعدد الأغراض. لدى هاتين المحطتين سجلات عقود لمؤشرات جودة المياه الشائعة: الحموضة (pH)، الأكسجين المذاب، الركاز العالق (جسيمات دقيقة في الماء)، المغذيات مثل النيتروجين والفوسفور، الكربون العضوي الكلي (TOC)، الطلب الحيوي على الأكسجين (BOD₅)، درجة حرارة الماء، الموصلية الكهربائية، وجريان النهر. بدلًا من بناء نموذج تقليدي قائم على الفيزياء — والذي قد يصعب نقله من نهر لآخر — اختبروا ستة خوارزميات «تعزيز»، وهي عائلة قوية من طرق تعلم الآلة التي تجمع العديد من أشجار القرار البسيطة لتشكيل متنبئ قوي.
البحث عن أفضل «متنبئ» نهري
لمقارنة طرق التعزيز الست (AdaBoost وCatBoost وXGBoost وLightGBM وHistGBRT وNGBoost)، درّب الفريق النماذج على نحو 70% من البيانات التاريخية وفحص الأداء على الـ30% المتبقية. قيّموا الدقة باستخدام عدة مقاييس تلتقط مدى قرب التنبؤات من قياسات COD الحقيقية ومدى قدرة النماذج على التعميم لحالات غير مرئية. في محطة تويلتشون، كان نموذج NGBoost — الذي لا يتنبأ بقيمة مفردة فحسب بل بنطاق احتمالي كامل لـCOD — الفائز الواضح، إذ التقط ما يقرب من كل التباين في COD مع أخطاء ضئيلة جدًا. في هوانجي، وهي محطة أكثر تعقيدًا، قدّم CatBoost أفضل توازن بين الدقة والاستقرار. بعض النماذج، وخاصة XGBoost، بدت شبه مثالية على بيانات التدريب لكنها تعثرت على بيانات الاختبار، وهو علامة كلاسيكية على «فرط التكيُّف» حيث يحفظ النموذج الضوضاء بدلًا من تعلم الأنماط الحقيقية.
فتح الصندوق الأسود للذكاء الاصطناعي
كان هدف مركزي للدراسة ليس فقط التنبؤ بـCOD، بل أيضًا تفسير أسباب تنبؤات النماذج. لذلك استخدم المؤلفون SHAP (تفسيرات شابلي الإضافية)، وهي تقنية تُنسب لكل متغير دخل مساهمة — موجبة أو سالبة — في كل تنبؤ فردي. عبر كلا النهرين ومعظم الخوارزميات، برزت ثلاث متغيرات باستمرار كالعوامل الرئيسية المسببة لـCOD: الكربون العضوي الكلي (TOC)، الطلب الحيوي على الأكسجين (BOD₅)، والركاز العالق (SS). ببساطة، كلما زادت المادة العضوية والجسيمات الدقيقة في الماء، ارتفع الطلب على الأكسجين. كما كشفت النماذج اختلافات خاصة بالموقع: في تويلتشون، لعب التصريف (الجريان) والفوسفور الكلي دورًا أقوى، ما يوحي بتأثير أكبر لمصادر منتشرة مثل جريان الزراعة؛ في هوانجي، أشارت أنماط الموصلية والركاز العالق إلى مصادر أكثر محلية أو صناعية. 
ماذا تعني النتائج للأنهار الحقيقية
تُظهر هذه الرؤى أن نماذج التعزيز، عندما تُقرَن بـSHAP، يمكنها أن تتجاوز الوضع كـ«صناديق سوداء» غامضة. إذ توفر توقعات دقيقة لطلب الأكسجين في الأنهار وقصة مفسرة ومنطقية عن ما الذي يُسبب التلوث في كل موقع. هذا مهم لمديري السدود وحوض النهر الذين يجب عليهم تحديد أولويات ما يجب مراقبته وأين يتدخلون: إذا كانت TOC وBOD₅ أقوى روافع، فإذًا التحكم في واردات النفايات العضوية يمكن أن يحقق أكبر تحسين في جودة المياه. كما تمنح التنبؤات الاحتمالية من NGBoost إحساسًا بعدم اليقين، وهو أمر حاسم لأنظمة الإنذار المبكر والقرارات المبنية على المخاطر. باختصار، تبيّن الدراسة أن الذكاء الاصطناعي المصمم بعناية والقابل للتفسير يمكن أن يساعد في حماية خزانات مياه الشرب والحياة المائية عن طريق تحويل قراءات الحساسات الروتينية إلى تنبؤات موثوقة وشفافة لصحة الأنهار.
الاستشهاد: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4
الكلمات المفتاحية: جودة المياه, الطلب الكيميائي على الأكسجين, تعلم الآلة, تلوث الأنهار, الذكاء الاصطناعي القابل للتفسير