Clear Sky Science · sv
En hybridram för variabelurval och tolkningsbarhet för prognoser av löst syre i dricksvattenverk
Varför syre i dricksvatten spelar roll
Löst syre — de små bubblorna av syrgas upplösta i vatten — påverkar tyst om vårt dricksvatten förblir klart, säkert och gott. För lite syre i råvatten kan frigöra metaller som järn och mangan, gynna skadliga mikrober och göra behandlingen svårare och dyrare. Denna studie visar hur intelligent användning av verkliga driftsdata och modern maskininlärning kan förutsäga syrenivåer i ett stort dricksvattenverk, och därigenom hjälpa driftspersonal att upprätthålla hög vattenkvalitet samtidigt som tid, energi och laboratoriekostnader sparas.
Att ge liv åt vattenbehandling
I många reservoarer och floder stiger och faller syrenivåerna med årstider, föroreningar och vattenrörelser. När vattnet blir stillastående eller överlastat med näringsämnen kan syret sjunka, vilket skapar förhållanden som frigör oönskade ämnen från sediment och gynnar problematiska mikrober. I dricksvattenverk är det särskilt viktigt att upprätthålla sunda syrenivåer för biologiska filter och för att förhindra frigöring av metaller och andra föreningar som är svåra att avlägsna. Tidigare studier har dock mest fokuserat på floder eller avloppsreningsverk, vilket lämnar ett kunskapsgap för renade dricksvattensystem där processsteg som flockning, filtrering och klorering förändrar syreutvecklingen på unika sätt.
Ett decennium av data från flod till kran
Forskarna använde tio år av dagliga journaler från ett fullskaligt vattenverk i Ahvaz, Iran, som behandlar vatten från Karunfloden för omkring 450 000 människor. De använde sju rutinmässigt mätta egenskaper hos filtrerat inkommande vatten — historiskt löst syre, nitrit, klorid, elektrisk konduktivitet, turbiditet, pH och temperatur — för att förutsäga syrenivån i anläggningens utloppsbassäng. Efter noggrann kontroll av data, hantering av avvikande värden och standardisering av mätningarna tränade de två populära träd-baserade maskininlärningsmodeller, Random Forest och XGBoost. Dessa modeller lär sig mönster genom att bygga många beslutsträd och kombinera deras resultat, vilket gör det möjligt för dem att fånga komplexa, icke-linjära samband utan att behöva handkonstruerade ekvationer. 
Att hitta de signaler som verkligen spelar roll
En central utmaning var att avgöra vilka av de sju inmatningsmätningarna som verkligen driver syreutvecklingen och vilka som bidrar med brus eller onödig komplexitet. Istället för att förlita sig på en enda rankningsmetod byggde teamet en ”hybrid” urvalspipeline som betraktade data ur flera vinklar. Mutual Information framhävde variabler som var starkast kopplade till syre, Mean Decrease in Impurity fångade vilka mätningar som var mest användbara inne i träden, och Permutation Importance testade hur mycket prognoserna försämrades när en variabels värden blandades om. Utöver detta förklarade SHAP-metoden, fall för fall, hur varje funktion sköt prognosen upp eller ner och erbjöd både global och fall-specifik insikt. I samtliga fyra tekniker framträdde tre indata tydligt: gårdagens syrenivå, vattentemperatur och turbiditet. Mått som pH och nitrit, även om de är vetenskapligt intressanta, bidrog lite till att förbättra prognoserna i denna anläggning.
Exakta prognoser med smalare modeller
Genom att fokusera på de mest informativa indatana och ta bort de minst användbara minskade forskarna modellernas komplexitet med upp till 70 procent samtidigt som noggrannheten förblev nästan oförändrad. Både Random Forest och XGBoost reproducerade uppmätta utloppssyrenivåer med hög precision, förklarande mer än 93 procent av variationen och med typiska fel under 0,3 milligram per liter — väl inom det intervall som är användbart för daglig drift. XGBoost presterade något bättre totalt sett, men båda modellerna var robusta även när indatasettet reducerades. Denna effektivitet är viktigt i praktiken: färre nödvändiga mätningar innebär lägre övervakningskostnader och snabbare, mer pålitliga prognoser som kan integreras i anläggningens styrsystem. 
Vad detta betyder för säkert och effektivt dricksvatten
För icke-specialister är slutsatsen enkel: genom att låta olika datadrivna metoder ”rösta” om vilka mätningar som är viktigast kan operatörer bygga kompakta, transparenta prognosverktyg som pålitligt förutsäger löst syre i realtid. Att i förväg veta när syret kan sjunka gör det möjligt för ett verk att finjustera luftning, skydda filter och undvika förhållanden som frigör metaller eller gynnar skadliga mikrober — samtidigt som överanvändning av energi och kemikalier undviks. Utöver denna enskilda anläggning och parameter kan samma hybrida angreppssätt tillämpas på andra miljöfrågor, från att spåra föroreningar till att förutse algblomningar, och ge tydligare och mer trovärdig vägledning där vattenkvalitet och folkhälsa möts.
Citering: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6
Nyckelord: lösta syret, dricksvattenbehandling, maskininlärning, variabelurval, övervakning av vattenkvalitet