Clear Sky Science · zh
数据空间增强策略对薄片岩石分类模型准确性与泛化能力的影响
为什么更聪明的岩石图像重要
在地表之下深处,岩石的构造决定了水、石油、天然气乃至二氧化碳的流动与储存位置。地质学家通过在显微镜下观察极薄的岩石切片来解读这种隐含的结构。越来越多的计算机被训练来从此类图像中识别岩石类型。本文提出了一个看似简单却具有重大实际意义的问题:当我们通过“数据增强”人工扩充这些图像集合时,是不是确实让计算机更聪明——还是有时反而让性能变差?

用有限的岩石照片教机器
训练图像识别系统通常需要数千个样本。在地质学中,收集这么多显微图像既缓慢又昂贵:样品必须钻取、切割、抛光并拍照,而且许多数据集被公司保密。作者使用了一个真实的 34,775 张显微薄片图像集合,分为 36 类岩石,例如砂岩、石灰岩和玄武岩。他们还定义了一个更小的“有限数据”版本,每类仅有 100 张训练图像和 50 张验证图像,以模拟数据稀缺的常见情形。
在不破坏岩石特征的前提下扩充数据
为弥补图像不足,研究者常通过翻转、平移、旋转、缩放或混合图像等方式创建原图的变体,帮助模型学会忽略无关差异。本研究比较了两类主要做法。静态增强在训练前生成并保存额外图像,永久扩大数据集;动态增强则在训练过程中实时生成随机变换,使每次迭代可能看到同一岩石的略有不同版本。团队探索了 133 种细化的变换设置——从轻微的镜像翻转到极端的缩放和旋转,以及更高级的“图像混合”,即数学上将两幅岩石图像混合或拼接在一起。

让五种网络经受考验
研究人员训练了五种不同的卷积神经网络:三种在日常照片上预训练的知名架构,以及两种从头构建的更简单模型。在 691 次独立实验中,他们衡量了不同增强策略下各模型对验证图像的分类准确率。在无增强且数据充足的情况下,表现最好的预训练网络已达约 98–99% 的准确率。使用较小训练集时准确率下降,使增强看起来颇有价值——但结果显示,并非所有额外数据都有帮助。
更多变异反而有害的情况
最引人注目的发现是增强是一把双刃剑。许多常用的几何变换,尤其是强烈的缩放和大幅旋转,在训练时以动态方式应用会显著降低准确率。这些操作会拉伸或模糊承载重要地质信息的微小矿物晶粒和纹理,从而实质上教模型去关注在真实样本中不存在的模式。相比之下,静态增强(变换图像被固定并反复使用)通常带来更稳定且有时更好的结果。简单的翻转和小幅平移通常较为安全,但激进的变换除非严格控制,否则存在风险。
通过图像混合提升泛化
最有前景的方法是线性与非线性的图像混合技术,把两张岩石图像合成一个新的训练样本。像素级平均、平铺或合并的变体在保存或提高准确率方面表现稳定,尤其是在小数据集上。使用此类静态混合图像训练的模型,对先前未见过的数据表现出更好的泛化能力,包括由另一套 AI 生成的合成岩石图像以及经过非典型处理(例如去背景或复杂失真)的真实岩石。值得注意的是,这种用较少原始图像训练得到的增强模型,有时超越了在完整未增强数据上训练的更大模型。
对未来地质 AI 的启示
对非专业读者而言,关键结论是:通过简单图像变换制造的“更多数据”并不自动使 AI 系统更可靠。在显微岩石的精细纹理中,某些失真恰恰会抹去地质学家所关心的特征。研究表明,经过精心选择的静态增强和有针对性的图像混合可以在一定程度上弥补数据不足并提高模型对新颖图像的处理能力;与此同时,不加批判地使用激进的动态变换可能会悄然侵蚀准确率。换句话说,对于自动化岩石分类——以及可能适用于许多科学成像任务的情况——我们如何“发明”新的训练图像,其方式与数量同等重要。
引用: Habrat, M., Młynarczuk, M. Impact of data space augmentation strategy on model accuracy and generalization in thin-section rock classification. Sci Rep 16, 13927 (2026). https://doi.org/10.1038/s41598-026-44320-y
关键词: 岩石显微学, 数据增强, 地质人工智能, 图像分类, 薄片