Clear Sky Science · zh

用于孔尺度二氧化碳—水相互作用机器学习代理的基准数据集

2026-03-06 · 返回目录

为何地下储碳需要更清晰的影像

在应对气候变化的诸多方案中，一项重要思路是从烟囱等排放源捕集二氧化碳（CO2），并将其深埋于地下。但地下岩层并非光滑的储罐——它们更像结构复杂的海绵，充满了水与CO2争夺空间的细小曲折通道。本文提出一个新的、精细的数字“影像序列”，展示CO2如何在这些微小孔隙中驱替水，为研究者提供构建更快计算模型所需的原始资料，从而预测地下存储能否在长期内将CO2安全封存。

深入岩石海绵内部

砂岩或火山岩等地下储层由微观孔隙交织而成，孔隙通常充满水。当向其中注入CO2时，气体需穿过这片迷宫，有时沿通道快速前进，有时又被困在死胡同。这些细尺度的流动格局决定了能存储多少CO2以及这种存储在数十年到数百年间有多安全。传统的实验与成像只能窥见少数小样本的情况，而高精度的数值模拟虽能跟踪每一细节却代价高昂。结果是工程上常采用把复杂细节平滑掉的简化公式，这可能漏掉重要行为。

为何智能替代模型需要丰富的训练数据

机器学习模型提供了一条捷径：训练完成后，它们能比完整的物理模拟更快地预测CO2在岩石中的运动。但像任何学生一样，模型的能力取决于所见的范例。现有许多数据集规模太小、仅覆盖简单岩相或仅记录注入的最终结果而非过程演化，使得算法难以学会CO2羽流随时间变化的形态、压力累积，或岩石细微结构变化如何影响流动。缺乏更丰富的训练素材，智能替代模型在遇到新颖、更复杂岩层时容易做出自信却不可靠的预测。

构建复杂孔隙中CO2与水的详细影像序列

作者通过汇编一个基准数据集来填补这一空白，该数据集以极高细节捕捉CO2—水相互作用。他们首先生成大量合成“岩石”的像素化地图，在这些地图中固体颗粒与连通孔隙以不同模式排列。通过有意改变颗粒尺寸和间距，构造出五个不同的结构复杂度等级，从规则有序到高度不规则。对于每一种数字岩样，作者运行先进的模拟——从一侧注入CO2并在孔隙中驱替水。每次模拟产生100帧时间上均匀间隔的快照，记录在512 × 512像素的网格上，具有微米级分辨率，跟踪CO2与水的分布、压力变化及流速在迷宫中的分布。

数据集包含内容及其用途

所得集合包括624个独特的孔隙结构，每个结构都配有完整的流体行为时间序列。对于每个样本，数据集提供岩石骨架图像、每个像素中被水填充的分数，以及水平方向和垂直方向的压力场与流场。附加表格列出诸如孔隙率（岩石空隙比例）与渗透率（流体流动难易程度）等整体性质，以及工程上描述流动阻力的度量。所有内容以标准科学文件格式存储，便于研究者接入其自身代码。该结构不仅允许机器学习模型预测最终结果，还能训练模型逐步向前预测——即从某一时刻预测CO2羽流到下一时刻的演化。

检验多样性是否改善学习效果

为说明多样性的重要性，作者在数据集的不同子集中训练了三种版本的流行基于图像的神经网络。一版看到全部五个复杂度等级，另一版只看到四个，第三版只看到最简单的单一等级。当这些模型被要求预测最复杂岩体中的CO2分布时，接受最多样化训练的模型平均表现最好，能在多个时间步上更忠实地再现模拟得到的羽流形态。训练样本较窄的模型在预测中产生更大误差，尤其是在将预测推向更远的未来时。同时，作者也发现，更多的多样性并不保证对每个个例都有改进，这提示在训练数据设计中存在丰富性与过度复杂化之间的平衡。

这对未来碳封存的意义

简言之，这项工作为将来帮助设计与监测地下CO2封存项目的算法提供了高质量的“练习场”。通过提供大量关于CO2与水如何穿行现实孔网的详细实例，数据集帮助机器学习工具学会游戏规则，而不是死记少数情形。主要结论是：在训练数据中纳入真实岩石的纷繁变异，能带来更好的平均预测，说明注入的CO2将如何移动并被捕获。这反过来能支持关于何处及如何将碳安全地存储于地下的更可靠、更高效的决策。

引用: Abdellatif, A., Menke, H.P., Maes, J. et al. A Benchmark Dataset for Machine Learning Surrogates of Pore-Scale CO₂-Water Interaction. Sci Data 13, 621 (2026). https://doi.org/10.1038/s41597-025-05794-z

关键词: 碳封存, 多孔岩石, 机器学习, 孔尺度流动, 二氧化碳注入