Clear Sky Science · zh

基于群体优化的深度神经网络与集成模型在特定电导率数据重构中的应用

· 返回目录

为何填补数据缺口很重要

沿海水域是人类活动与海洋相遇的前线。科学家用一种称为特定电导率的指标来监测这些水域的咸度,这有助于揭示污染泄漏、淡水流入变化和长期环境变动。但传感器会失灵、风暴会导致停电、仪器本身也有局限,结果就是关键记录中出现令人沮丧的空白——恰恰是在管理者和研究人员最需要连续数据的时候。本研究提出了一个务实的问题:现代人工智能能否可靠地“修复”这些断裂的记录,从而使沿海决策基于完整且可信的信息?

观察墨西哥湾的呼吸

研究者将注意力集中在墨西哥湾——世界上最大的海洋生态系统之一,同时也是工业和农业压力集中的区域。他们使用了五个位于帕斯卡古拉河和马利特湖附近的美国地质调查站的测量数据,每15分钟记录一次水的咸度(通过特定电导率)、温度和水位。其中一个名为E的站点约有5%的特定电导率数据缺失——正是现实监测网络常遇到的问题。来自四个邻近站点的数据构成了一种环境安全网:即便站点E失去观测,其他站点仍在监测。核心思想是训练计算模型去学习五个站点如何“共同呼吸”,以便当某一站点出现空缺时,从其它完整记录中推断出丢失的值。

Figure 1
Figure 1.

把智能算法付诸检验

为了解决这一问题,团队组建了十种不同的建模方法阵容。一端是熟悉的工具,如多元线性回归,它们试图在输入与输出之间画出直线关系。中间是更灵活的模型,如传统神经网络、模糊逻辑系统和常用于时间序列数据的长短期记忆(LSTM)网络。他们还使用了一种自组织方法,称为数据处理群体法(GMDH)及其非线性变体(NGMDH),这些方法能自动构建多层公式。最后,引入了基于树的方法:单一决策树模型(CART)以及两种“集成”方法——随机森林和XGBoost,它们通过组合多棵树来给出最终决策,有点像由专家小组投票决定答案。

群体驱动的深度学习

训练深度神经网络向来不易:其众多参数很容易陷入次优配置。为改进性能,作者将LSTM和NGMDH与一种受漩涡水流启发的最新优化方法配对,称为基于湍流水流的优化(TFWO)。在该方案中,每一组可能的模型参数被想象为在解空间中以漩涡式运动的“粒子”。经过多次迭代,这些粒子被引导到使预测误差更小的区域。此类群体式搜索使两种神经网络的精度明显提升,平均误差降低了约6–11%。尽管如此,即便是这些改进后的深度模型,最终仍被基于树的方法超越。

Figure 2
Figure 2.

集成方法领先

作者在六种情形中严格测试了所有方法。在五个“设想”案例中,他们将本应完整的记录中的某些片段隐藏,检验各模型重构缺失值的能力。在最后一个真实情境中,他们要求模型利用邻站数据来填补站点E的真实缺口。在这些测试中,最简单的直线方法表现最差,而标准机器学习模型表现大为改进,误差约减半。决策树通过自动将数据分割为更均匀的组别进一步提升了表现。但明显的胜出者是XGBoost集成方法:通过构建数百棵相互纠错的树,它实现了极低的误差,并在预测的特定电导率与实测值之间达到几乎完美的匹配。其重构结果紧跟观测时间序列,并再现了水质记录的整体统计特性。

对沿海及更广泛领域的意义

对非专业读者而言,结论很直接:精心设计的人工智能能够可靠地填补沿海水质记录中的缺失片段,尤其是在邻近站点能提供背景信息时。尽管先进的神经网络很强大,本研究表明,像XGBoost这样的基于树的集成方法更为准确,而且在实践中可能是修复环境数据集的最佳选择。借助稳健的缺口填补工具,科学家能够更好地追踪沿海盐度的细微变化、识别污染事件并支持管理决策,而不被不可避免的传感器故障所干扰。同样的策略也可应用于许多其他工程和环境问题,这些问题通常具有数据流丰富、噪声多且偶有不完整的特性。

引用: Mahdavi-Meymand, A., Sulisz, W. & Nandan Bora, S. Application of swarm-based deep neural networks and ensemble models for reconstruction of specific conductance data. Sci Rep 16, 7292 (2026). https://doi.org/10.1038/s41598-026-38136-z

关键词: 沿海水质, 特定电导率, 机器学习, 缺失数据重构, XGBoost