Clear Sky Science · zh
使用知识蒸馏的多视角图像融合对在日本出土古代玻璃珠进行分类
珠子作为时间胶囊
一千多年来,微小的玻璃珠沿着从地中海和印度通往日本列岛的贸易路线流动。如今,这些色彩斑斓的碎片是日本出土文物中最常见的类型之一——已发现超过60万件——但要确切判断它们的产地通常需要耗时且昂贵的化学检测以及专家的鉴定。本文提出了一个简单但有力的问题:普通照片加上现代人工智能能否替代实验室手段,帮助考古学家快速且温和地追踪这些珠子的来源?
为何古代玻璃重要
玻璃珠不仅是饰品;它们是横贯欧亚大陆远距离接触的线索。不同地区使用不同的原料和着色剂配方,产生可供专家用于分组的化学“指纹”,这些组别通常可关联到东亚、印度、东南亚、中亚和地中海等地。传统的来源研究依赖测量化学成分的仪器以及在放大镜下检视形状、颜色和制造痕迹的专家。这些方法已揭示出关于古代贸易的丰富故事,但要将其扩展到遍布日本博物馆和库房中数十万件易碎物品却很困难。

从实验室测量到简单照片
为打破这一瓶颈,作者们探索了一种仅使用珠子图像的方法。他们没有溶解玻璃取样,而是对每颗珠子拍摄两个角度的照片:一个顶视图展示环形孔与整体色彩分布,另一个侧视图显示厚度和轮廓。这种双视角模拟了人工专家在手中旋转文物以捕捉表面纹理和形态细微变化的做法。目标具有雄心:仅凭这些照片,计算机能否自动将每颗珠子分配到考古学家已建立的16个化学与区域分组之一?
教机器像专家一样看
研究团队采用了一种名为 MidNet 的混合人工智能系统。它结合了两种领先的图像分析策略。一种是卷积神经网络,擅长捕捉微小细节,如细小凹坑、色带或表面损伤;另一种是视觉变换器(vision transformer),用于把握更宏观的关系——颜色和形状在整个珠子上的空间联系。MidNet 将顶视和侧视两种视角分别通过这两类模型处理,并鼓励它们相互“达成一致”。在训练过程中,每个模型不仅从正确标签学习,还从其伙伴模型和另一个视角的预测中学习。这种来回的交流减少了系统依赖某一角度或模型类型的偶发现象,而更专注于与产地相关的持久可见特征。
处理不均衡与不完美的数据
MidNet 背后的数据集包含3,434张珠子图像,其类别是通过细致的专家研究和化学分析先前确定的。有些珠子类型数量充足,而有些只有少数样本——这是考古学中常见的问题。为防止人工智能简单偏向最常见的类别,研究者采用了两种策略。首先,他们使用现代图像合成技术为极罕见的类型生成额外的训练图像,制造出可信的变体而无需触碰实物。其次,他们故意对训练照片进行扰动——轻微改变颜色、裁剪或遮盖小块区域——以使系统对轻微的损伤或光照差异不那么敏感。随后,他们通过严格的交叉验证程序评估性能,以检验该方法在未知珠子上的泛化能力。

系统表现如何?
当研究者将混合的 MidNet 与更常规的图像模型比较时,发现同时使用顶视和侧视始终有助于提高表现,证实两个角度捕获了互补的线索。在原始准确率方面,MidNet 与最好的竞争方法仅相差几颗珠子(在数千件样本中),但它在不同测试划分间表现得最稳定。换言之,其性能在不同实验之间的波动更小,这表明它对训练集中具体包含哪些珠子不那么敏感——在处理稀有文物类型时这是关键品质。该方法仍然在某些外观极为相似的类别上挣扎,连专家也难以区分,这暗示存在一种“超细粒度”问题,照片中几乎难以察觉的差别使分类变得困难。
对未来发掘工作的意义
这项研究表明,细致的摄影加上先进的图像分析可以在不触碰化学样本的情况下,可靠地估计许多古代玻璃珠的产地。对于考古学家而言,这为对大规模藏品进行快速、低成本、非破坏性的排序打开了可能性,甚至可在野外或缺乏实验室的小型博物馆中使用。尽管具有挑战性的个案仍需专家判断和化学检测,像 MidNet 这样的系统可以处理大部分例行分类、标出异常样本,并支持追踪玻璃跨越大陆与数百年流动的庞大数字档案。简而言之,这项工作展示了人工智能如何帮助重建人类历史,一颗小小的珠子接一颗地展开故事。
引用: Fukuchi, T., Tamura, T. & Fukunaga, K. Multi-view image fusion using knowledge distillation for classification of ancient glass beads excavated in Japan. npj Herit. Sci. 14, 41 (2026). https://doi.org/10.1038/s40494-026-02305-0
关键词: 考古学, 玻璃珠, 机器学习, 基于图像的分类, 文化遗产