Clear Sky Science · zh

来自中国宪女洞组的Girvanella粘结石微相高分辨率带注释数据集

· 返回目录

古老的礁体邂逅现代算法

早在珊瑚构建出现代热带礁之前,微小的微生物就已在海底组装起复杂的水下结构。这些化石化的“微生物礁”记录了5亿多年以前早期生命如何塑造海洋。支撑本文的新研究并非报告某一处化石发现,而是发布了一个精心构建的、开放的显微图像数据集,来源于中国的此类古老礁体——其格式专为让现代人工智能(AI)系统学会自动“读”岩石记录而设计。

Figure 1
Figure 1.

来自极为古老的浅海岩石

研究聚焦于中国南部的宪女洞组,沉积于早寒武世,那是动物迅速多样化、海洋生态系统变得更复杂的时期。这些岩石保存了一种类礁的结构称为Girvanella粘结石,主要由丝状蓝细菌构建,留下钙化的管状体和外壳。这些微生物结构中混杂着沉积颗粒、骨骼碎屑和充填其间的矿物胶结物。共同作用下,这些成分勾勒出一个古老浅滩、受波浪搅动的海底快照,展现出生物与海水化学协同构建致密碳酸盐平台的景象。

将岩石薄片转为数字图块

为了让计算机能使用这一古老记录,研究团队从安装在载玻片上的薄片岩石开始,在偏光显微镜下以高分辨率拍摄。从28块原始薄片中挑选出7块进行详细处理。每张整块图像上叠加规则网格,然后切割成许多小正方形图块,每块114×114像素。这些图块既足够大以捕捉关键纹理——如缠绕的微生物管、细泥或粗糙颗粒——又足够小以作为机器学习的标准化“像素”。该过程产生了数万张图像片段,共同覆盖了岩石中存在的全部微观纹理类型。

Figure 2
Figure 2.

用于机器学习的人工精细标注

单有数字图像并不够;AI还需要示例来说明每种模式的含义。因此研究者对岩石中可见的不同成分进行了手工标注:Girvanella外壳、各种类型的颗粒、泥质、胶结物及其他特征。他们创建了特殊的“掩膜”图像,其中每个像素在一个颜色通道中携带一个数值类标识。随后用Python脚本根据这些掩膜按点计数规则汇总像素值,把每个图块分配到十类微相之一——例如骨骼粒岩、层状微生物岩或白云质泥岩。标注不明确或缺失的图块被自动剔除。最终数据集按平衡比例划分为训练、验证与测试集,自动与人工核对的标签一致率超过95%。

一个符合FAIR原则的地质与AI资源

成品是一个结构良好的公开数据集,托管于Figshare,遵循FAIR(可查找、可获取、可互操作、可重用)原则。所有图块图像以标准PNG文件存储,其标签与数据集划分记录在单个CSV文件中。与此同时,作者在GitHub上提供了开源的Python代码,再现完整流程:将薄片图像切片为图块、读取隐藏标签、检查质量并组织数据。这意味着其他研究者可以将数据集直接接入深度学习框架,在共同基准上比较模型,或将该工作流程改用于自有岩石样本。

其意义超越单一礁体

通过把复杂的古礁转化为有序的带标注图像库,该研究在早期地球生态系统与现代AI工具之间架起了一座桥梁。对非专业读者而言,核心结论是:解读岩石纹理——曾是把显微镜对准薄片的资深岩相学家的专长——越来越可以与基于公开数据训练的算法共享。该数据集将帮助科学家自动化碳酸盐岩的分类、完善对已消失海洋的重建,并将迁移学习应用到其他地质情境。简单来说,它把一片寒武纪海底薄片变成了可重复使用的计算机教学集,加速我们读取藏在岩石中的地球深史的能力。

引用: Choi, S., Kim, D., Hong, J. et al. High-resolution Annotated Dataset of Girvanella Boundstone Microfacies from the Xiannüdong Formation, China. Sci Data 13, 611 (2026). https://doi.org/10.1038/s41597-026-06958-1

关键词: 寒武纪礁, 碳酸盐微相, 地质数据集, 地球科学中的深度学习, 微生物碳酸盐