Clear Sky Science · zh

用于捕虫器及个体水平影像与DNA的多模态昆虫生物多样性数据集

· 返回目录

为何微小昆虫与大数据重要

在世界各地,昆虫群体正在快速变化,有些类群在科学家甚至来不及描述它们之前就已经在下降。传统的整理、命名与计数方法依赖稀缺的专家时间和在显微镜前繁复的工作。本文介绍了一种新型资源,将数以万计在实地陷阱中捕获的小型生物的高分辨率照片与DNA信息结合起来。通过将生物学与现代计算机视觉配对,作者们旨在加速我们在不断变化的地球上测量与监测昆虫生命的能力。

Figure 1
Figure 1.

从野外帐篷到数字标本

该项目名为 MassID45,始于瑞典和芬兰北部的森林与湿地,那里使用特殊的帐篷式马莱斯(Malaise)陷阱将飞行昆虫引导到收集瓶中。2021 年季节期间,从 19 个地点中选取了 45 个每周样本进行深入分析。在实验室里,每份混合样品被称重、轻柔处理以释放DNA,并倒入一个铺有薄层酒精的浅盘中。昆虫被摊开并在精心控制的照明下用高分辨率相机从上方拍摄,生成一张“整体托盘图像”,其中成千上万的个体以针尖大小的形状出现。

用两种方式看到同一批昆虫

在拍摄整体图像后,团队将样本拆分为单个昆虫以进行更详细的处理。每个标本被放入自己的微小孔位或用针固定并进行近距离拍摄。与此同时,使用现代高通量测序设备为每只昆虫读取一段短而标准化的DNA序列——通常称为条形码。这产生了超过 35,000 条个体条形码序列。将这些序列与大型参考数据库比对,使研究人员能够将大多数标本归入熟知的类群,例如双翅目、鞘翅目和蛾类等科,从而为每个陷阱样本提供了以DNA为锚的节肢动物出现类型清单。

教计算机识别微小生物

为了使托盘照片对自动化有用,作者们必须教会计算机每只昆虫的位置及其所属的大致类群。他们采用了两步注释流程。首先,一个算法粗略勾画出托盘图像中每个暗色物体,然后人工注释者使用一个由AI辅助的网页工具细化这些轮廓,确保每只常常只有数像素宽的昆虫都获得独立且干净的掩模。其次,一位专家检查每个被掩模的昆虫,并根据照片能看到的最细分类单元为其分配类别,这一过程由基于匹配到的DNA条形码所生成的预期类群自定义列表提供指导。该策略将专家的努力集中在识别上,而非繁琐的绘制,最终使整体图像中超过 17,000 个节肢动物与可靠的群体名称建立了联系。

Figure 2
Figure 2.

系统运行得如何?

随后团队将 MassID45 当作对现代计算机视觉的压力测试。整体图像被切成重叠的瓦片,以便微小昆虫在分析时保持足够清晰,并评估了几种最先进的图像分割模型。通用的“零样本”系统(此前未见过这些数据)表现不佳:它们往往漏检最小的昆虫,并将其与碎屑混淆。相比之下,在精心标注的 MassID45 图像上重新训练的模型在发现与勾画个体方面表现得更好,尤其是对诸如双翅目和胡蜂等常见类群。尽管如此,最极微小的弹尾目和其他苍白的斑点状体形仍然常常难以与背景材料区分开来,这突显了视觉上的内在极限。

这对追踪地球生命意味着什么

MassID45 不是单一的新算法,而是一个丰富的参考数据集,其他研究者可以下载并在其上构建。通过将托盘级照片、个体标本图像、DNA序列与来自实地样本的专家群体标签联系起来,它为计算机学习如何计数与描述成群的微小节肢动物提供了现实的训练场。虽然这些图像很少能实现物种级识别,但它们可靠地捕捉到更广泛的类群,这通常足以揭示随时间与空间变化的昆虫群落转变。在实践中,这意味着未来的监测计划可以将简单的陷阱摄影与DNA采样和机器学习相结合,以提供比单靠人工专家更快、更详尽且更具可扩展性的昆虫生物多样性视角。

引用: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

关键词: 昆虫生物多样性, DNA条形码, 计算机视觉, 生态监测, 机器学习数据集