Clear Sky Science · nl

Nauwkeurige en interpreteerbare voorspelling van chemische zuurstofvraag met uitlegbare boosting-algoritmen en SHAP-analyse

· Terug naar het overzicht

Waarom het volgen van zuurstof in een rivier belangrijk is

Rivieren zijn de levensaders van steden en landbouwgebieden, maar wanneer ze vervuild raken met organisch afval van fabrieken, rioolwater of akkers, kan het water zuurstofarm raken en onveilig worden voor mensen en ecosystemen. Een veelgebruikte gezondheidstest voor rivieren is de “chemische zuurstofvraag” (CZV of COD), een maat voor hoeveel zuurstof nodig is om vervuiling af te breken. Het meten van COD in het laboratorium is traag en kostbaar, dus deze studie onderzoekt of geavanceerde maar uitlegbare machine-learningtools betrouwbaar COD kunnen voorspellen op basis van routine-sensorgegevens — en duidelijk kunnen laten zien wat de vervuiling veroorzaakt.

Figure 1
Figure 1.

Slimme modellen voor een vervuilde wereld

De onderzoekers richtten zich op twee riviermeetstations in Zuid-Korea, Hwangji en Toilchun, net stroomopwaarts van de multifunctionele Yeongju-stuwdam. Bij deze stations bestaan decennialange reeksen voor gebruikelijke indicatoren van waterkwaliteit: zuurgraad (pH), opgeloste zuurstof, zwevende stofdeeltjes (fijn materiaal in het water), nutriënten zoals stikstof en fosfor, totaal organisch koolstof (TOC), biochemische zuurstofvraag (BOD₅), watertemperatuur, elektrische geleidbaarheid en rivierafvoer. In plaats van een traditioneel op fysica gebaseerd model te bouwen — wat lastig is over te dragen van de ene rivier naar de andere — testten ze zes ‘boosting’-algoritmen, een krachtige familie van machine-learningmethoden die veel eenvoudige beslissingsbomen combineren tot een sterke voorspeller.

De beste rivier-‘voorspeller’ vinden

Om de zes boosting-methoden (AdaBoost, CatBoost, XGBoost, LightGBM, HistGBRT en NGBoost) te vergelijken, trainde het team de modellen op ongeveer 70% van de historische data en evalueerde de prestaties op de resterende 30%. Ze beoordeelden nauwkeurigheid met verschillende statistieken die vastleggen hoe dicht voorspellingen bij echte COD-metingen liggen en hoe goed de modellen generaliseren naar onzichtbare omstandigheden. Bij het station Toilchun was het NGBoost-model — dat niet slechts een enkele waarde voorspelt maar een volledige kansverdeling voor COD — de duidelijke winnaar, omdat het bijna alle variatie in COD vastlegde met zeer kleine fouten. Bij Hwangji, een complexere locatie, leverde CatBoost de beste balans tussen nauwkeurigheid en stabiliteit. Sommige modellen, met name XGBoost, leken bijna perfect op de trainingsdata maar faalden op de testdata, een klassiek teken van ‘overfitting’, waarbij een model ruis memoriseert in plaats van echte patronen te leren.

De zwarte doos van AI openen

Een centraal doel van de studie was niet alleen het voorspellen van COD, maar ook het verklaren waarom de modellen hun voorspellingen deden. Hiervoor gebruikten de auteurs SHAP (Shapley Additive Explanations), een techniek die elke invoervariabele een bijdrage toewijst — positief of negatief — aan elke individuele voorspelling. Over beide rivieren en de meeste algoritmen heen kwamen drie variabelen consequent naar voren als de belangrijkste drijfveren van COD: totaal organisch koolstof (TOC), biochemische zuurstofvraag (BOD₅) en zwevende stoffen (SS). Simpel gezegd: hoe meer organisch materiaal en fijne deeltjes in het water, hoe hoger de zuurstofvraag. De modellen toonden ook locatie-specifieke verschillen: bij Toilchun speelden debiet (afvoer) en totaal fosfor een sterkere rol, wat duidt op meer invloed van diffuse bronnen zoals landbouwafspoeling; bij Hwangji wezen patronen in geleidbaarheid en zwevende stoffen op meer lokale of industriële bronnen.

Figure 2
Figure 2.

Wat de resultaten betekenen voor echte rivieren

Deze inzichten laten zien dat boosting-modellen, in combinatie met SHAP, verder kunnen gaan dan ondoorzichtige ‘zwarte dozen’. Ze leveren zowel scherpe voorspellingen van de zuurstofvraag in rivieren als een fysisch plausibel verhaal over wat de vervuiling per locatie aanstuurt. Dit is belangrijk voor beheerders van dammen en rivierbekkens die moeten bepalen wat ze moeten monitoren en waar ze moeten ingrijpen: als TOC en BOD₅ de sterkste knoppen zijn, kan het beheersen van organische afvalinvoer de grootste verbetering van de waterkwaliteit opleveren. De probabilistische voorspellingen van NGBoost geven bovendien een beeld van onzekerheid, wat cruciaal is voor vroegsignaleringssystemen en risicogebaseerde beslissingen. Kortom, de studie toont aan dat zorgvuldig ontworpen, uitlegbare AI kan helpen waterwinningen en aquatisch leven te beschermen door routinematige sensorwaarden om te zetten in betrouwbare, transparante voorspellingen van de gezondheid van rivieren.

Bronvermelding: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4

Trefwoorden: waterkwaliteit, chemische zuurstofvraag, machine learning, riviervervuiling, uitlegbare AI