Clear Sky Science · pl

Hybrydowe ramy wyboru cech i interpretowalności do prognozowania tlenu rozpuszczonego w zakładach uzdatniania wody pitnej

· Powrót do spisu

Dlaczego tlen w wodzie pitnej ma znaczenie

Tlen rozpuszczony — drobne bąbelki gazowego tlenu wymieszane z wodą — dyskretnie decyduje o tym, czy nasza woda pitna pozostaje klarowna, bezpieczna i przyjemna w smaku. Zbyt mała zawartość tlenu w surowej wodzie może uwalniać metale takie jak żelazo i mangan, sprzyjać szkodliwym mikrobom oraz utrudniać i drożyć proces uzdatniania. W tym badaniu pokazano, jak inteligentne wykorzystanie rzeczywistych danych eksploatacyjnych i nowoczesnych metod uczenia maszynowego może prognozować poziomy tlenu w dużym zakładzie uzdatniania wody, pomagając operatorom utrzymać wysoką jakość wody przy jednoczesnym oszczędzaniu czasu, energii i kosztów laboratoryjnych.

Ożywianie procesów uzdatniania

W wielu zbiornikach i rzekach poziomy tlenu zmieniają się wraz z porami roku, zanieczyszczeniem i ruchem wody. Gdy woda staje się stojąca lub przeciążona składnikami odżywczymi, tlen może spadać, tworząc warunki sprzyjające uwalnianiu niepożądanych substancji z osadów i rozwojowi problematycznych mikroorganizmów. W zakładach uzdatniania wody utrzymanie odpowiedniego poziomu tlenu jest szczególnie ważne dla filtrów biologicznych oraz zapobiegania uwalnianiu metali i innych związków, które trudno usunąć. Większość wcześniejszych badań skupiała się jednak na rzekach lub oczyszczalniach ścieków, pozostawiając lukę w wiedzy dotyczącą systemów uzdatniania wody pitnej, gdzie etapy procesu takie jak koagulacja, filtracja i chlorowanie wpływają na zachowanie tlenu w specyficzny sposób.

Dekada danych od rzeki do kranu

Naukowcy wykorzystali dziesięć lat codziennych zapisów z zakładu uzdatniania w pełnej skali w Ahvaz w Iranie, który uzdatnia wodę z rzeki Karun dla około 450 000 osób. Użyli siedmiu rutynowo mierzonych parametrów dopływu przefiltrowanej wody — historycznego poziomu tlenu rozpuszczonego, azotynu, chlorków, przewodności elektrycznej, mętności, pH i temperatury — aby przewidzieć poziom tlenu w basenie odpływowym zakładu. Po starannym sprawdzeniu danych, obsłudze wartości odstających i standaryzacji pomiarów, wytrenowali dwa popularne modele drzew decyzyjnych: Random Forest i XGBoost. Modele te uczą się wzorców przez budowanie wielu drzew decyzyjnych i łączenie ich wyników, co pozwala uchwycić złożone, nieliniowe relacje bez potrzeby stosowania ręcznie tworzonych równań.

Figure 1
Figure 1.

Wyszukiwanie sygnałów, które mają największe znaczenie

Kluczowym wyzwaniem było rozstrzygnięcie, które z siedmiu pomiarów wejściowych faktycznie napędzają zachowanie tlenu, a które wnoszą szum lub niepotrzebną złożoność. Zamiast polegać na jednej metodzie rankingu, zespół zbudował „hybrydowy” proces selekcji, który spojrzał na dane z kilku perspektyw. Wzajemna informacja (Mutual Information) wyróżniła zmienne najsilniej powiązane z tlenem, spadek średniej nieczystości (Mean Decrease in Impurity) wskazał, które pomiary były najbardziej użyteczne w drzewach, a istotność przez permutację (Permutation Importance) przetestowała, jak bardzo pogarszają się prognozy, gdy wartości danej zmiennej zostaną pomieszane. Dodatkowo metoda SHAP wyjaśniała, przypadek po przypadku, jak każda cecha podbijała lub obniżała prognozę, dostarczając zarówno wglądu globalnego, jak i specyficznego dla pojedynczych obserwacji. We wszystkich czterech technikach trzy wejścia wyraźnie się wyróżniły: poziom tlenu z poprzedniego dnia, temperatura wody i mętność. Miary takie jak pH i azotyn, choć interesujące naukowo, niewiele wnosiły do poprawy prognoz w tym zakładzie.

Dokładne prognozy przy lżejszych modelach

Skupiając się na najbardziej informatywnych wejściach i eliminując najmniej użyteczne, badacze zmniejszyli złożoność modeli nawet o 70 procent, przy zachowaniu prawie niezmienionej dokładności. Zarówno Random Forest, jak i XGBoost odtworzyły zmierzone poziomy tlenu na odpływie z wysoką precyzją, wyjaśniając ponad 93 procent zmienności i utrzymując typowe błędy poniżej 0,3 miligrama na litr — czyli w granicach użytecznych dla codziennej eksploatacji. XGBoost wypadł nieco lepiej ogólnie, ale oba modele były odporne nawet po redukcji zbioru wejść. Ta efektywność ma praktyczne znaczenie: mniej wymaganych pomiarów oznacza niższe koszty monitoringu oraz szybsze i bardziej niezawodne prognozy, które można zintegrować z systemami sterowania zakładu.

Figure 2
Figure 2.

Co to oznacza dla bezpiecznej, efektywnej wody pitnej

Dla osób niebędących specjalistami wniosek jest prosty: pozwalając różnym metodom opartym na danych „zagłosować” nad tym, które pomiary są najważniejsze, operatorzy mogą zbudować zwarte, przejrzyste narzędzia prognostyczne, które wiarygodnie przewidują tlen rozpuszczony w czasie rzeczywistym. Wczesne ostrzeżenie o możliwym spadku tlenu pozwala zakładowi precyzyjnie dostosować napowietrzanie, chronić filtry i unikać warunków sprzyjających uwalnianiu metali lub rozwojowi szkodliwych mikroorganizmów — przy jednoczesnym unikaniu nadmiernego zużycia energii i chemikaliów. Poza tym jednym zakładem i parametrem ta sama hybrydowa metoda może zostać zastosowana do innych zagadnień środowiskowych, od monitorowania zanieczyszczeń po przewidywanie zakwitów alg, oferując jaśniejsze i bardziej wiarygodne wskazówki tam, gdzie spotykają się jakość wody i zdrowie publiczne.

Cytowanie: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6

Słowa kluczowe: tlen rozpuszczony, uzdatnianie wody pitnej, uczenie maszynowe, wybór cech, monitorowanie jakości wody