Clear Sky Science · zh

使用混合机器学习框架对东辽河突发水体污染事件进行源头识别

2026-03-04 · 返回目录

为何突发河流污染事关每个人

当工厂泄漏或管道破裂将一股污染物脉冲注入河流时，下游社区可能只有数小时来保护饮用水取水口和生态系统。确切知道污染来自何处、强度如何以及持续了多长时间，对追究责任和有效响应至关重要。本研究聚焦中国东辽河，展示了如何将基于物理的模拟与现代机器学习相结合，在现场数据嘈杂或稀缺时，快速并带有现实不确定性估计地定位隐蔽污染源。

沿真实河段追踪一次溢流

研究人员考察了东辽河大约30公里的一段河道，该段两岸分布着可能引发突发污染事件的工业园区。他们设想了紧急场景：一次短时的污染物排放（以化学需氧量、氨氮和磷等常见水质指标计量）从某一岸进入河流。下游布置了五个虚拟监测点，用于记录污染波如何传播及其峰值浓度沿程的变化。由于真实事故罕见且监测往往不充分，团队依赖于一个详细的河流流动与污染物输移计算模型，生成了大量现实的“假如”事件。

把耗时的高保真模拟变成快速替代模型

传统河流模型通过求解复杂方程来描述水流运动以及污染物如何扩散和稀释。这些工具虽强大但速度缓慢：对东辽河段运行一例高保真模拟约需一小时，远不能满足快速应急决策或探索数千种可能泄漏情形的需求。为克服这一点，作者构建了一个轻量级的替代模型（surrogate），采用机器学习方法。他们用物理模型生成了180个合成泄漏事件作为训练数据，训练了三种算法。其中一种称为长短期记忆网络（LSTM）的神经网络方法明显优于其他候选者，能近似再现原始模型对各监测点峰值污染水平的预测，同时几乎能瞬时运行。

寻找隐藏的污染源

有了快速替代模型，团队开始解决反问题：在已知下游监测到的污染情况下，是否能推断出泄漏发生的位置和强度？首先，他们采用确定性策略，寻找单一的最优解。这里，一种受座头鲸合作捕猎模式启发的搜索算法——鲸鱼优化算法，测试了大量可能的源位、强度和持续时间组合。对于每次试验，LSTM替代模型预测下游浓度，并与合成“观测值”比较。鲸鱼算法与LSTM的组合在准确性和速度上总体优于另外两种常用搜索方法，在理想的无噪声数据下将关键源参数的典型误差降至仅几个百分点。

为真实世界噪声加入不确定性

真实测量从不完美：仪器存在误差、环境条件变化、模型亦有近似。因此研究人员构建了第二套概率体系，寻找的不是单一解，而是一整套合理的泄漏情形及其各自的可能性。他们将鲸鱼‑LSTM引擎置于贝叶斯框架中，将未知源特性视为具有概率分布的变量。经过修改的算法允许搜索在一定概率下接受略差的解以扩大探索范围，然后用统计工具总结搜索主要集中在哪些区域。结果是每个源参数（例如距上游边界的距离或污染物强度）的一组概率曲线，以及捕捉最可信值区间的范围。

对保护河流的意义

当团队引入类似现场传感器可能遇到的测量噪声时，确定性方法的局限性显现：部分参数会显著偏离真实值。相比之下，概率方法保持稳定，通常将多数释放特征的误差控制在7%以下，并为每个估计提供明确的不确定性区间。至关重要的是，针对一次泄漏的全部概率分析可在普通硬件上几分钟内完成。对应急管理者而言，这意味着他们可以快速推断突发污染脉冲很可能来自何处及其严重程度，同时看到这些推断的置信度。该框架为将物理、数据与概率相结合的智能预警系统保护地表水提供了切实可行的路径。

引用: Wang, Y., Wang, Y., Shi, P. et al. Source identification of sudden water pollution events in the Dongliao River using a hybrid machine learning framework. Sci Rep 16, 11976 (2026). https://doi.org/10.1038/s41598-026-41724-8

关键词: 河流污染, 污染源识别, 机器学习, 贝叶斯反演, 水质监测