Clear Sky Science · zh

一种结合局部与全局特征注意力的薄片岩石图像分类网络

2026-01-28 · 返回目录

为什么更智能的岩石图像很重要

埋藏在地表下的岩石包含关于隧道安全、地下水寻址或石油天然气储集位置的重要线索。地质学家在显微镜下研究这些刀片般薄的岩石切片，但手工标注成千上万张图像既耗时又带有主观性。本研究提出了一种新的人工智能系统，称为 HFANet，能够从这些薄片图像中学习识别岩石类型，准确率接近完美，有望加速地质勘查并提高结果的一致性。

兼顾整体视野与微小细节

大多数计算机视觉工具要么擅长捕捉整体模式，要么擅长关注微小细节，很少二者兼顾。薄片岩石尤其棘手：砂岩、火山岩和变质岩在不同放大倍数下可能显得相互相似而令人困惑。HFANet 通过将问题分成两个互补视角来应对这一挑战。网络的一条分支观察整幅图像，以捕捉视野中的整体结构和矿物分布；另一条分支将图像划分为更小的补丁，检查每个小块的纹理、晶粒边缘和微小裂隙。

将这些视角结合起来，系统模拟了受过训练的地质学家在全片与具体晶粒间切换目光的方式。

教会网络在哪里“注意”

仅仅并行运行两条分支并不足够；它们需要相互交流。HFANet 使用注意力机制——一种告诉模型图像哪些部分对决策最重要的数学工具。首先，以补丁为中心的分支通过让补丁彼此“关注”，学习哪些局部区域携带最有用的信息。然后，一个交互阶段让全局与局部特征双向引导彼此。全局视角将模型引向具有地质意义的区域，而细节补丁则将微妙的纹理和边界反馈到全局摘要中。这种往返的注意力有助于系统锁定关键信号，例如区分两种非常相似的砂岩，否则这些差异可能导致混淆。

将人工特征线索与深度学习融合

除了网络自行学习的内容外，作者还引入了地质学家和图像分析人员长期使用的传统图像描述符。这些包括颜色平衡、纹理粗糙度和亮度变化的测量，能够捕捉晶粒如何从背景中凸显或织构的有序程度等信息。HFANet 将这些经典特征视为另一种数据源，输入到全局分支中，让网络学习如何对它们加权。这种融合仅带来极小的计算开销，却在准确性上带来可衡量的提升，特别是在那些因为纹理和矿物组合微妙变化而更难分类的火成岩中。

性能基准测试与泛化性检验

研究人员在来自南京大学的大型教学数据集上训练和评估了 HFANet，该数据集包含超过 2,600 张显微图像，覆盖 108 个岩石类型——沉积岩、火成岩和变质岩。在细粒度任务上，例如区分沉积岩的不同亚型，HFANet 的准确率超过 99%，并在基于排序的指标（衡量模型区分类别能力）上取得了完美分数。在三大类岩石的总体比较中，它持续优于常用的卷积神经网络和 Transformer 模型。团队随后提出了更严格的问题：当模型在从未见过的薄片矿物集合上测试时表现如何？在这个情形下，一个更简单的网络在原始准确率上略高，但 HFANet 在将正确类别排在前列的能力上依然最好，表明其对岩石模式的内部表示在成像条件变化时仍然稳健。

洞察模型的推理过程

为检验 HFANet 是否关注具有地质意义的区域，作者将模型的注意力图与专家注释进行了比较。在火山沉积岩的示例图像中，HFANet 突出了火山玻璃碎片、晶体碎屑和裂隙——这些是人工专家用于命名和解释此类岩石的结构。其关注区域与手工绘制的重要特征掩码高度一致，并且比应用于主流基线模型的标准可视化工具更精确。这种一致性表明系统并非仅在记忆颜色或噪声，而是关注那些在科学上重要的边界、织构和晶粒关系。

这对未来地质工作的意义

对于日常地球科学工作，HFANet 指向了可快速且可靠地标注薄片图像、标记模糊样本并帮助标准化教学藏品的自动化工具。尽管其双分支、重度使用注意力的设计比简单网络在计算上更为昂贵，但它提供了罕见的准确性、可解释性和对地质结构的尊重。通过在模型加速和适配新显微镜与不同岩石组合方面进一步工作，像 HFANet 这样的系统有望成为人类专家的可信助手，处理常规的岩石分类任务，让地质学家将注意力集中在复杂的解释与决策上。

引用: Wei, P., Fan, C., Yang, X. et al. A hybrid local-global feature attention network for thin section rock image classification. Sci Rep 16, 6446 (2026). https://doi.org/10.1038/s41598-026-36669-x

关键词: 岩石薄片图像, 深度学习分类, 注意力网络, 地质图像分析, 岩相学自动化