Clear Sky Science · he

תחזית מדויקת וניתנת לפרשנות של דרישת חמצן כימית באמצעות אלגוריתמי חיזוק שמסבירים עם ניתוח SHAP

· חזרה לאינדקס

מדוע חשוב לעקוב אחרי החמצן בנהר

נהרות הם עורק החיים של ערים וחוות, אך כאשר הם מתמלאים בפסולת אורגנית ממפעלים, ביוב או שדות, המים עלולים להתרוקן מחמצן ולהפוך למסוכנים לאנשים ולמערכות אקולוגיות. בדיקה מקובלת למצב הנהר היא «דרישת חמצן כימית» (COD), מדד לכמות החמצן הנדרשת לפירוק הזיהום. מדידת COD במעבדה איטית ויקרה, ולכן המחקר בוחן האם כלי למידת מכונה מתקדמים אך ברי-פרשנות יכולים לחזות בעקביות COD מתוך נתוני חיישנים שגרתיים — ובמקביל להבהיר בצורה ברורה מה מניע את הזיהום.

Figure 1
Figure 1.

מודלים חכמים לעולם מזוהם

החוקרים התמקדו בשתי תחנות ניטור נהר בדרום קוריאה, הוואנגג'י וטוילчун, ישירות צפונית למתקן המאגר הרב-תכליתי יונגג'ו. בתחנות אלו קיימים עשרות שנות הקלטות של מדדי איכות מים נפוצים: חומציות (pH), חמצן מומס, חומרים מוצקים תלויים (חלקיקים דקים במים), מזינים כגון חנקן וזרחן, פחמן אורגני כולל (TOC), דרישת חמצן ביוכימית (BOD5), טמפרטורת מים, מוליכות חשמלית וזרימת הנהר. במקום לבנות מודל פיזיקלי מסורתי — שיכולה להיות בעיה להעבירו מנהר אחד לאחר — הם בחנו שישה אלגוריתמי "חיזוק" (boosting), משפחה חזקה של שיטות למידת מכונה שמשלבות עצי החלטה פשוטים רבים לחיזוי מוחשי וחזק.

למצוא את "חזאי" הנהר הטוב ביותר

כדי להשוות את ששת שיטות החיזוק (AdaBoost, CatBoost, XGBoost, LightGBM, HistGBRT ו-NGBoost), הצוות אימן את המודלים על כ-70% מהנתונים ההיסטוריים ובדק ביצועים על ה-30% הנותרים. הם העריכו דיוק באמצעות מספר סטטיסטיקות הלוכדות עד כמה התחזיות קרובות למדידות COD אמיתיות וכמה טוב המודלים מתכללים לתנאים שלא נראו קודם. בתחנת טוילчун, מודל NGBoost — שמנבא לא רק ערך יחיד אלא טווח הסתברותי מלא עבור COD — היה הזוכה הברור, קולט כמעט את כל השונות ב-COD עם שגיאות קטנות מאוד. בהוואנגג'י, אתר מסובך יותר, CatBoost נתן את האיזון הטוב ביותר בין דיוק ויציבות. חלק מהמודלים, ובעיקר XGBoost, נראו כמעט מושלמים על נתוני האימון אך נכשלו על נתוני המבחן — סימן קלאסי ל'התאמה מדי' (overfitting), כאשר המודל שומר בזיכרונו רעש במקום ללמוד דפוסים אמיתיים.

לפתוח את תיבת השחורים של ה-AI

מטרה מרכזית של המחקר הייתה לא רק לחזות COD, אלא גם להסביר מדוע המודלים עשו את התחזיות שלהם. לשם כך השתמשו המחברים ב-SHAP (Shapley Additive Explanations), טכניקה שמחלקת לכל משתנה קלט תרומה — חיובית או שלילית — לכל תחזית בודדת. בשני הנהרות וברוב האלגוריתמים, שלושה משתנים בלטו בעקביות כמניעים העיקריים של COD: פחמן אורגני כולל (TOC), דרישת חמצן ביוכימית (BOD5) וחומרים מוצקים תלויים (SS). בפשטות, ככל שיש יותר חומר אורגני וחלקיקים דקים במים, דרישת החמצן גבוהה יותר. המודלים גם חשפו הבדלים ספציפיים לאתרים: בטוילчун נצפה תפקיד חזק יותר לזרימה ולזרחן כולל, דבר שמעיד על השפעה גדולה יותר של מקורות מפוזרים כמו נגר חקלאי; בהוואנגג'י, דפוסים במוליכות ובחומרים המוצקים התלויים ניפחו לעתים את התרומה של מקורות מקומיים או תעשייתיים.

Figure 2
Figure 2.

מה המשמעות של התוצאות לנהרות ממשיים

התובנות הללו מראות שבעת שימוש במודלים חיזוק וב-SHAP, ניתן להתקדם מעבר ל'קופסאות שחורות' לא ברורות. הם מספקים גם תחזיות חדות של דרישת החמצן בנהר וגם סיפור פיזיקלי סביר לגבי מה שמניע את הזיהום בכל אתר. הדבר חשוב למנהלי סכרי מאגרי מים ועמקי נהרות שצריכים לתעדף מה לנטר ואיפה להתערב: אם TOC ו-BOD5 הם המנופים החזקים ביותר, אז שליטה בכניסות פסולת אורגנית יכולה להביא את השיפור הגדול ביותר באיכות המים. התחזיות ההסתברותיות של NGBoost גם נותנות תחושת אי-וודאות, מה שקריטי למערכות התרעה מוקדמת ולקבלות החלטות מבוססות סיכון. בקצרה, המחקר מדגים שכאשר מעצבים בקפידה בינה מסבירה, היא יכולה לסייע להגן על מאגרי מי שתייה וחיים מימיים על ידי הפיכת קריאות חיישנים שגרתיות לתחזיות אמינות ושקופות של בריאות הנהר.

ציטוט: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4

מילות מפתח: איכות מים, דרישת חמצן כימית, למידת מכונה, זיהום נהרות, בינה מסבירה