Clear Sky Science · zh

用于深度学习的碳酸盐薄片图像数据集与基准

· 返回目录

为什么观察微小岩石很重要

石油和天然气公司、气候科学家以及地质学家都非常重视岩石中所蕴含的故事。通过将岩石切成纸片般的薄片并在显微镜下观察,专家们可以读取关于远古海洋、埋藏的珊瑚礁,以及让油、气和水在地下流动的通道的线索。本文介绍了DeepCarbonate,这是一个大型、经过严谨核验的此类薄片图像集合。它的设计目标是让现代人工智能系统能够自动识别岩石类型,从而让这一传统技艺更快、更一致,并更便于在全球范围内共享。

Figure 1
Figure 1.

从岩样到数字岩石画廊

该项目始于实际钻取并采样自中国四川盆地和阿拉伯联合酋长国重要含油地层的岩石。地质学家首先用肉眼检查每块薄片,确保所研究的部分能够代表整体。为了避免被局部异常误导,他们以两种放大倍率检查至少八个不同视野,核对纹理和颗粒,直到能有把握地命名整体岩性。然后才固定显微镜设置并拍摄高分辨率图像,聚焦于那些对理解岩石成因与流体运移至关重要的细节。

在不同光照下捕捉岩石

DeepCarbonate 不只是对每个位置拍一张照片。相同的薄片会在多种成像方式下拍摄:普通透射光、交叉偏光、反射光,有时还会在染色后拍摄,使得某些矿物染上颜色而其他矿物保持暗淡。每种照明模式突出不同特征——晶体形状、孔隙空间或可能暗示烃类的有机残留物。它们合在一起比任何单张图像都提供更丰富的视角。所有图像均以一种在细节与视野之间取得平衡的固定放大倍率拍摄,并经过严格的质量检查,以剔除模糊、过暗或损坏的图片。

邀请专家小组把关

由于细微的岩石特征往往难以解释,团队并不依赖单一意见。十位碳酸盐岩专家独立审核图像及所拟定的标签。如果有过多专家不同意初始判断,这些图像会被剔除,以免用有争议的样本去教计算机。剩下的图片被分为22个不同的岩石类别,涵盖从细粒泥岩与化石富集灰岩,到充填裂隙的岩体、泡沫状孔隙网络,以及诸如叠层体和团状体等微生物构造。这种广泛覆盖反映了数十年经典岩石分类体系,但以数据驱动地质学的形式重新打包。

为人工智能构建公平的测试平台

一旦标注完成,图像就会按机器学习研究人员从标志性视觉数据集中熟悉的结构重新组织。该集合总计超过55,000张图像,在每种照明模式下被划分为训练、验证和测试子集。作者随后在这个新舞台上测试了一系列流行的图像识别网络,从ResNet和VGG到MobileNet与EfficientNet。他们不仅衡量每个模型将岩性准确分类的频率,还评估模型在其前几项猜测中对正确答案的排序能力,以及它们在处理常见与稀有岩石类别时的公平性。

Figure 2
Figure 2.

机器从岩石中学到了什么

结果表明,DeepCarbonate 具有挑战性但可学:现代网络能正确分类大多数图像,而较轻量、更高效的模型常常表现尤为出色。研究还揭示了类不平衡——即某些岩石类型在数据集中远比其他类型常见——会如何使算法偏向“常见”岩石。通过仅使用九个代表性最好的类创建更平衡的子集,作者展示了性能的提升以及模型对图像中真正诊断性特征的更清晰聚焦。将所有不同照明模式一起使用也能提升性能,证实了这些额外的视觉线索对机器而言和对人工薄片学者一样具有实际价值。

这对能源与地球科学意味着什么

对非专业人士而言,DeepCarbonate 本质上是一本共享的、高质量显微岩石图册,配以一套明确的规则,用来测试计算机“读取”这些图像的能力。通过公开图像与代码,作者提供了一个通用的标尺,使未来用于岩石分析的 AI 工具能够被公平比较。从长远看,这类经专家核验的标准化数据集有助于将一种缓慢、依赖手工的技艺转变为更快速、更客观的数字化科学——支持在能源勘探、碳封存以及我们更广泛理解地球岩石档案如何记录行星历史方面做出更好的决策。

引用: Li, K., Song, J., Zhang, Z. et al. A dataset and benchmark of carbonate thin-section images for deep learning. Sci Data 13, 340 (2026). https://doi.org/10.1038/s41597-026-06633-5

关键词: 碳酸盐岩, 薄片图像, 深度学习, 岩相学, 地质数据集