Clear Sky Science · zh
用于饮用水处理厂溶解氧预测的特征选择与可解释性混合框架
饮用水中氧气为何重要
溶解氧——混溶于水中的微小氧气泡——悄然影响着我们的饮用水是否保持清澈、安全且口感良好。原水中溶解氧不足会释放铁、锰等金属、促使有害微生物滋生,并使处理更困难和更昂贵。本研究展示了如何智能利用实际运行数据和现代机器学习来预测大型饮用水厂的溶解氧水平,帮助操作人员在节省时间、能源和实验室成本的同时维持高水质。
为水处理注入生命力
在许多水库和河流中,氧气水平随季节、污染和水体运动而升降。当水体停滞或富营养化时,氧气可能下降,产生有利于从沉积物释放不良物质并促进问题性微生物的条件。在饮用水处理厂中,维持适当的溶解氧对生物滤池的运行以及防止难以去除的金属和其他化合物释放尤为重要。然而,过去的大多数研究侧重于河流或污水厂,留下了对经处理饮用水系统的知识空白;在这些系统中,如混凝、过滤和加氯等工艺步骤会以独特方式改变氧的行为。
从河到水龙头的十年数据
研究人员利用了伊朗阿瓦士(Ahvaz)一座全规模水处理厂的十年逐日记录,该厂处理来自卡龙河(Karun River)的水,服务约45万人。他们使用了过滤后进水的七项常规测量属性——历史溶解氧、亚硝酸盐、氯化物、电导率、浊度、pH 和温度——来预测厂出口池的溶解氧水平。对数据进行了仔细检查、异常值处理和标准化之后,研究团队训练了两种常用的基于树的机器学习模型:随机森林(Random Forest)和 XGBoost。这些模型通过构建大量决策树并将其结果组合来学习模式,能够捕捉复杂的非线性关系而无需手工建立方程。 
找出最重要的信号
一个关键挑战是判断七项输入测量中哪些是真正驱动氧行为的因素,哪些则增加噪声或带来不必要的复杂性。研究团队没有只依赖单一排序方法,而是构建了一个“混合”选择流程,从多个角度审视数据。互信息(Mutual Information)突出显示与氧最强相关的变量,基尼重要性(Mean Decrease in Impurity)反映在树内部哪些测量最有用,置换重要性(Permutation Importance)则通过打乱变量值检验其对预测变差的影响。在此基础上,SHAP 方法逐个样本解释每个特征如何推动预测上升或下降,既提供全局也提供个案层面的洞见。通过这四种技术的综合比较,有三项输入明显突出:前一天的溶解氧、进水温度和浊度。诸如 pH 和亚硝酸盐等指标尽管在科学上有意义,但在该厂的预测中对提升精度贡献不大。
更简洁模型下的高精度预测
通过聚焦最具信息量的输入并剔除最不有用的测量,研究人员将模型复杂度最多降低了70%,而预测精度几乎不变。随机森林和 XGBoost 均能高精度再现测得的出口溶解氧水平,解释了超过93%的变异,且典型误差低于0.3毫克/升——在日常运行中已属实用范围。总体上 XGBoost 表现略优,但即便在减少输入变量时,两种模型均表现稳健。这种效率在实践中至关重要:所需测量越少,监测成本越低,预测越快越可靠,便于集成到厂内控制系统中。 
对安全、高效饮用水的意义
对非专业读者而言,结论很直接:通过让不同的数据驱动方法“共同投票”决定哪些测量最重要,运行人员可以构建紧凑且透明的预测工具,实时可靠地预测溶解氧。提前知道氧可能下降的时机,可使厂方优化曝气、保护滤池,并避免会释放金属或有利于有害微生物的条件——同时避免能源和化学品的过度使用。超出单一厂和单一参数范围,这种混合方法也可用于其他环境问题,从追踪污染物到预警藻华,为水质与公共卫生交汇处提供更清晰、更可信赖的决策支持。
引用: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6
关键词: 溶解氧, 饮用水处理, 机器学习, 特征选择, 水质监测