Clear Sky Science · zh

通过对比学习减轻陶片识别中的虚假特征影响

2026-03-04 · 返回目录

碎陶为何对现代科学重要

乍一看，来自中国南方一个有七千年历史的村落的大堆碎陶片与现代人工智能似乎相去甚远。但这些碎片是理解新石器时代人们生活的关键——同时它们也揭示了当今图像识别系统的一个隐性弱点。本研究利用先进的机器学习方法将河姆渡陶片按类型分类，并解决影响许多人工智能系统的问题：系统倾向于抓住误导性的视觉“捷径”而非真正有意义的线索。

古陶与其隐含的故事

河姆渡考古遗址出土了大约四十万件陶片，是重建新石器时代中国南方日常生活、技术与贸易的宝贵资料。现场以两类主要陶器为主。砂质夹砂陶中掺有沙砾，使其致密、坚硬并耐热；炭粉夹烧植物残留的陶器则混入了燃烧的植物材料，留下细小孔隙和类灰烬的痕迹，使器物更轻且表面更光滑。考古学家主要根据表面纹理和材料成分来区分这些类型，而不是单片破碎边缘的轮廓。若能将该分类自动化，将节省大量专家时间，但前提是计算机必须关注与专家一致的判别线索。

当人工智能学错“教训”

研究者在发掘现场建立了一个经过精心控制的图像集，在遮光帐篷内以恒定光照和白色背景拍摄了1,864件陶片。令人惊讶的是，早期实验显示标准深度网络仅依靠碎片形状就能相当准确地分类：在二值化、仅保留轮廓的图像上取得了很高的准确率。相比之下，当研究者裁去边缘仅保留内部表面纹理时，准确率下降。这表明模型找到了一个简单但不可靠的捷径：特定的破片形状，而考古学家认为这些形状是破损的随机结果，并非可靠的器物类型标志。用机器学习的术语来说，碎片形状充当了“虚假特征”——一种在数据集中与标签相关但并未真正与底层类别相连的模式。

教模型看穿捷径

为促使系统关注更有意义的线索，团队设计了一种基于对比学习的训练策略，这一技术教会模型哪些图像应被视为“相似”或“不同”。针对每张陶片照片，他们创建了一个随机裁剪版本，使大部分轮廓消失而内部表面保留。两张图像都通过相同的特征提取网络，训练过程迫使它们的内部表示相互靠拢。与此同时，不同陶器类型的图像在特征空间中被推远。一种专门的“Triplet-center”损失函数使同类陶片的簇更紧凑，并分离了砂质与炭粉夹的簇，即便肉眼看去它们的纹理颇为相似。

让学习更稳定、更可靠

在塑造好该特征空间后，研究者将其固定，并在其上训练一个简单的分类器。为避免常见的过拟合陷阱——在训练数据上表现极好但在新样本上失灵——他们采用了一种称为“flooding（淹没）”的技术。与其将训练误差驱到零，flooding刻意将损失保持在一个小的非零水平，鼓励模型落入一片宽广、平坦的解区，这类解通常更具泛化性。他们还测试了许多常见的数据增强手段，如颜色变换与模糊。破坏纹理信息的变换通常会削弱性能，而扰乱形状的变换——如水平翻转和经过精心调参的随机裁剪——则有助于模型忽略误导性的轮廓线索。

对考古学与人工智能的意义

通过将对比训练、Triplet-center损失和flooding结合，该系统在河姆渡陶片数据集上达到了97.3%的准确率，超越了若干知名的图像识别模型。该方法在另一个基准测试中的表现也有所提升，在该测试中物体类型出现在新的、陌生的背景中，这表明方法能帮助许多视觉系统抵抗虚假相关。对考古学家而言，此类工具有望更快、更一致地对大量陶片进行分拣，从而让专家将精力集中在解释而非重复性标注上。对普通读者而言，结论很清楚：通过迫使人工智能看穿那些方便但不可靠的捷径——比如破碎陶片的锯齿轮廓——我们可以构建更接近人类专家理解世界的系统。

引用: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

关键词: 河姆渡陶器, 对比学习, 虚假相关, 考古影像, 图像分类