Clear Sky Science · ru
Гибридная схема отбора признаков и интерпретируемости для прогнозирования растворённого кислорода на станциях очистки питьевой воды
Почему кислород в питьевой воде важен
Растворённый кислород — крошечные пузырьки кислородного газа в воде — незаметно определяет, остаётся ли наша питьевая вода прозрачной, безопасной и приятной на вкус. Слишком низкий уровень кислорода в исходной воде может вызвать вымывание металлов, таких как железо и марганец, способствовать развитию вредных микроорганизмов и усложнить обработку, делая её дороже. В этом исследовании показано, как разумное использование реальных эксплуатационных данных и современных методов машинного обучения позволяет прогнозировать уровни кислорода на крупной станции очистки питьевой воды, помогая операторам поддерживать высокое качество воды и экономить время, энергию и расходы на анализы.
Вдохнуть жизнь в очистку воды
Во многих водохранилищах и реках уровни кислорода колеблются в зависимости от сезонов, загрязнений и движения воды. Когда вода застаивается или насыщается питательными веществами, кислород может падать, создавая условия для высвобождения нежелательных веществ из отложений и благоприятствуя проблемным микроорганизмам. На станциях очистки питьевой воды поддержание адекватного уровня кислорода особенно важно для биологических фильтров и для предотвращения высвобождения металлов и других трудноудаляемых соединений. Тем не менее большинство предыдущих работ сосредотачивалось на реках или очистных сооружениях сточных вод, оставляя пробел в знаниях о системах обработки питьевой воды, где такие технологические этапы, как коагуляция, фильтрация и хлорирование, по‑своему влияют на поведение кислорода.
Десятилетие данных от реки до крана
Исследователи использовали ежедневные записи за десять лет с полноразмерной станции очистки в Ахвазе, Иран, которая очищает воду реки Карун для примерно 450 000 человек. Для прогноза уровня кислорода в отстойном бассейне на выходе станции они взяли семь рутинных измерений воды после фильтрации — исторический растворённый кислород, нитрит, хлориды, электропроводность, мутность, pH и температуру. Проведя тщательную проверку данных, работу с выбросами и стандартизацию измерений, они обучили две популярные древовидные модели машинного обучения: Random Forest и XGBoost. Эти модели выявляют закономерности, строя множество решающих деревьев и объединяя их результаты, что позволяет улавливать сложные нелинейные связи без необходимости вручную задавать уравнения. 
Поиск наиболее значимых сигналов
Ключевая задача заключалась в определении, какие из семи входных измерений действительно управляют поведением кислорода, а какие добавляют шум или ненужную сложность. Вместо того чтобы полагаться на один метод ранжирования, команда построила «гибридный» конвейер отбора, который рассматривал данные с разных сторон. Взаимная информация (Mutual Information) выявляла переменные, наиболее тесно связанные с кислородом; среднее уменьшение неоднородности (Mean Decrease in Impurity) показывало, какие измерения были наиболее полезны внутри деревьев; а важность по перестановке (Permutation Importance) проверяла, насколько ухудшаются прогнозы при перемешивании значений переменной. Сверх этого метод SHAP объяснял для каждого случая, как каждая переменная смещает прогноз вверх или вниз, давая как глобальное, так и частное понимание. По результатам всех четырёх техник явно выделились три входа: уровень кислорода предыдущего дня, температура воды и мутность. Такие показатели, как pH и нитрит, хотя и представляют научный интерес, мало улучшали прогнозы для этой станции.
Точные прогнозы при упрощённых моделях
Сосредоточившись на наиболее информативных входах и исключив наименее полезные, исследователи сократили сложность моделей до 70 процентов, практически не потеряв в точности. И Random Forest, и XGBoost с высокой точностью воспроизводили измеренные уровни кислорода на выходе, объясняя более 93 процентов вариации и удерживая типичные ошибки ниже 0,3 миллиграмма на литр — что находится в пределах, полезных для повседневной эксплуатации. В целом XGBoost показал немного лучшие результаты, но обе модели оставались устойчивыми даже при сокращённом наборе входов. Эта эффективность важна на практике: меньшее число требуемых измерений означает снижение затрат на мониторинг и более быстрые, надёжные прогнозы, которые можно интегрировать в системы управления станции. 
Что это значит для безопасной и эффективной питьевой воды
Для неспециалистов итог прост: позволив различным методам, основанным на данных, «проголосовать» за наиболее важные измерения, операторы могут создать компактные и прозрачные инструменты прогнозирования, надёжно предсказывающие растворённый кислород в реальном времени. Знание заранее о возможных падениях кислорода даёт станции возможность точнее регулировать аэрацию, защищать фильтры и избегать условий, при которых высвобождаются металлы или процветают вредные микроорганизмы — при этом не допуская избыточного расхода энергии и реагентов. За пределами одной станции и одного параметра тот же гибридный подход может применяться к другим экологическим задачам — от отслеживания загрязнителей до прогнозирования цветения водорослей — предлагая более ясные и надёжные рекомендации там, где пересекаются качество воды и общественное здоровье.
Цитирование: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6
Ключевые слова: растворённый кислород, очистка питьевой воды, машинное обучение, отбор признаков, мониторинг качества воды