Clear Sky Science · zh

通过处理不平衡数据的机器学习估算浅基础因液化引起的沉降

2026-02-26 · 返回目录

为什么地面摇动对日常建筑很重要

当强烈地震发生时，看似坚实的地面可能短暂地表现得像液体，导致建筑下沉、倾斜或开裂。这个现象称为液化，近年的多次地震（从土耳其到日本）已造成房屋和基础设施的破坏。工程师知道，即便几十厘米的不均匀沉降也可能使建筑不再安全或无法使用。然而，基于有限的场地资料预测特定建筑会下沉多少仍然很困难。本研究探讨了现代机器学习工具如何将来自真实地震的零散案例历史转化为一种实用的方法，用以预测与液化相关的损害并为更安全的设计、保险决策和灾后检查提供指导。

从零散的案例报告到全球地震数据集

研究人员首先汇编了一个全球数据库，包含206座在过去地震中经历液化相关地面失稳的建筑。针对每一例，他们收集了在实际情况中常可获得的简单信息：场地的震动强度、建筑的总高度和宽度、建筑对基础施加的压力，以及地下土层的关键性质——特别是第一可液化层距地表的深度和厚度。研究者没有试图计算精确的厘米级沉降，而是将结果分为四个损害等级，从未见明显沉降到出现严重下沉和倾斜。这个“地面失稳指数”把混乱的现实测量转化为可用于训练和测试机器学习模型的清晰类别。

教计算机在不均衡数据中识别危险模式

真实的地震记录远非整洁：某些损害类型常见而另一些很少见，输入变量可能包含离群值和噪声。在该数据集中，严重损害的比例远高于中等损害，造成明显的不平衡，这可能误导许多算法忽视最罕见的类别。为应对这一问题，作者系统地结合了若干策略。他们先用离群值过滤方法清理数据，然后探索两种互补的不平衡处理方法：对少数类进行人工复制（随机过采样）以及通过代价敏感学习让算法把对罕见类别的错误视为更昂贵。为了避免过于乐观的结果，所有这些步骤都包裹在严格的“无信息泄露”工作流程中，即测试数据在模型训练、调参和重采样期间完全保持不可见。

哪些因素与模型最好地捕捉沉降风险？

研究人员测试了多种常用模型，包括随机森林、梯度提升方法、人工神经网络，以及一个对多个模型预测取平均的集成模型。由于总体准确率可能掩盖对罕见但重要损害等级的差表现，团队强调了召回率——模型正确标记的真实严重案例比例——作为关键指标。梯度提升和基于树的模型集成在结合随机过采样、谨慎的离群值处理和精细调整的决策阈值时表现最稳定。为了解模型“关注”的要点，作者使用了SHAP——一种将每次预测分解为各特征贡献的方法。该分析显示，第一可液化层的埋深是影响最大的单一因素，其次是震动强度以及诸如建筑宽度等基本地基几何参数。简单来说，位于浅层、易液化土层之上且基础较窄的建筑，始终与最严重的损害相关联。

在真实地震案例上检验该方法

为检验方法在训练样本之外的适用性，研究者将最终模型应用于四个来自知名地震的详细案例研究，包括1989年加州洛马普里耶塔地震、1999年土耳其科贾埃利地震、2016年日本熊本序列以及2023年土耳其卡赫拉曼马拉什地震。在这些示例中，唯一的输入是震动强度的简要估计、建筑尺寸和荷载，以及现场试验得到的可液化层的深度和厚度。模型总体上与观察到的沉降严重程度相匹配，能正确识别轻微和严重的损害等级。在一例中，模型故意偏向保守，预测的损害等级高于报告值。作者认为在像地震韧性这样的高风险情境中，这种保守预测优于漏检严重受损的建筑。

一个面向软弱地基城市更安全的以数据为驱动的辅助工具

这项工作并不能取代传统的基于物理的沉降公式——当有详细的土工试验结果时，那些方法仍然不可或缺。相反，它提供了一种互补工具：一种透明、以数据为驱动的方法，利用一小组常规收集的参数将建筑分入宽泛的风险类别。通过审慎处理不平衡数据、避免评估中的隐性偏差，并揭示哪些土层与建筑特征最重要，所提出的机器学习框架为工程师、规划者和保险人提供了一个实用的早期预警工具。在以软性、饱和地基为主的地区，它可以帮助优先确定在下一次重大地震中最可能发生危险下沉和倾斜的建筑。

引用: Sargin, S., Korkmaz, G., Yildirim, A.K. et al. Estimation of liquefaction-induced settlement of shallow foundation by machine learning with imbalanced data. Sci Rep 16, 11198 (2026). https://doi.org/10.1038/s41598-026-41969-3

关键词: 土壤液化, 地震工程, 机器学习, 建筑沉降, 地震风险