Clear Sky Science · zh

利用SHAP解释的机器学习模型比较分析:高速公路洪涝致阻断的成因

· 返回目录

为何被淹的公路关系到日常生活

当暴雨冲毁道路或触发滑坡时,可能使旅客滞留、延误应急救援,并扰乱食品与物资的流通。在中国四川省,随着极端天气加剧和道路网络扩展,此类因洪涝导致的公路阻断越来越常见。本研究提出了一个具有全球意义的现实问题:现代人工智能能否帮助预测公路何时何地最有可能被洪水切断,以及能否解释背后的原因?

绘制易受灾的山区图谱

选择四川作为试验区,是因为该省兼具广泛的道路网络、崎岖的地形和季节性强降雨。研究人员收集了2021–2022年间的丰富数据集,包括近9000条每日的洪涝致公路阻断记录、来自卫星的数据(高程与坡度)、植被覆盖、土地利用、河流与溪流、降雨与温度,以及人口与道路密度。他们聚焦于对社会经济影响最大的主要道路——高速公路、国道和省道。为保持数据的现实性,他们也面对一个常见难题:没有阻断事件的日子远多于实际被切断的日子。

Figure 1
Figure 1.

教会机器提前识别风险

研究团队构建了一个整合框架,联系三种思路:对罕见事件更智能的处理、对预测方法的谨慎比较以及对风险驱动因素的透明解释。由于阻断事件相对少见,传统模型往往主要“从”大量安全日中学习,难以识别少数危险日。为应对这种不平衡,研究人员比较了三种策略。一种简单地去除部分无阻断日(欠采样)。第二种使用了名为TimeGAN的技术,该技术学习真实时间序列的模式,然后生成逼真的合成罕见阻断日以增强少数类。第三种混合方法则结合了两者。在这些预处理数据之上,他们训练了六种不同的机器学习模型,从熟悉的逻辑回归和支持向量机到更灵活的随机森林、梯度提升和多层感知机(一种神经网络)。性能评估主要依据各模型在抓住真实阻断事件同时避免虚假报警之间的平衡表现。

找到最佳预测器并检验其可靠性

在数十种模型与数据组合中,有一种搭配脱颖而出:在TimeGAN增强数据上训练的多层感知机。此配置取得了最高的F1分数(约50%)并在精确率—召回率上表现有竞争力,意味着它在识别阻断日方面表现最好而未被大量假阳性淹没。重要的是,该模型在未见测试数据上的分数与训练时接近匹配,而且一种将时间序列分块重洗的自助法检验显示其性能是稳定的而非偶然。换言之,生成逼真的罕见阻断样本有助于神经网络学习有用模式而不会对噪声过拟合。

Figure 2
Figure 2.

模型揭示的高风险条件

为了超越“黑箱”式的预测,作者使用了一种名为SHAP的方法来探究训练好的神经网络,询问哪些因素最重要以及如何影响风险。分析突出了少数几个天气与地理阈值,这些阈值会显著提高阻断风险。日降雨量超过约2.8毫米,以及7天累积有效降雨超过约22毫米,均构成转折点:低于这些水平时,条件通常抑制阻断;超过后,随着土壤饱和和径流冲刷坡面与路基,概率迅速上升。温度也起类似作用。当日均温保持在约21摄氏度以下时,风险通常较低,但更温暖的条件常伴随更强、更集中的降雨和更湿的地面,从而促进更多滑坡和冲毁。一个不太明显的因素是道路与最近河流的距离。当一公里带内道路—河流的平均距离超过约0.15公里时,风险上升,可能因为这类道路往往位于更陡、更易失稳的山坡而非平缓的河谷地带。

将洞见转化为更安全的道路

对非专业读者而言,核心信息很直接:某些“过多的水、持续过久、出现在不利地形”的组合,会显著增加高速公路被阻断的概率。通过明确降雨、温度和道路—河流距离的阈值,并证明经过精心调整的神经网络能以合理的准确率预测高风险日,研究为道路管理者提供了实用指引。这些洞见可纳入预警仪表盘、指导加固边坡或排水的位置,并帮助在长距离路网中优先安排监测与维护。随着极端天气愈发常见,这类以数据为驱动且可解释的工具,可能在保持关键交通路线通畅和社区互联方面发挥重要作用。

引用: Li, B., Wu, L., Gao, J. et al. Comparative analysis of machine learning models with SHAP interpretation for causes of highway flood-damage blocking. Sci Rep 16, 5118 (2026). https://doi.org/10.1038/s41598-026-35074-8

关键词: 高速公路洪涝风险, 机器学习, 极端降雨, 基础设施韧性, 滑坡