Clear Sky Science · zh

一种基于双头结构与校准感知融合架构的蚊子物种分类新型深度学习方法

2026-02-04 · 返回目录

更智能的蚊虫识别为何重要

蚊子个头虽小，但传播着世界上一些最危险的疾病。卫生机构越来越依赖人们用智能手机拍摄的诱捕昆虫照片来追踪不同物种的出现情况。问题在于许多蚊子外形极为相似，且现场拍摄的图像常常模糊、光线差或由不同型号的相机拍摄。本研究提出了一种新的人工智能系统，能够以实验室级别的准确率区分相似的蚊子物种，同时对每个决策给出置信度——这种能力在将识别结果用于真实世界的疾病防控时至关重要。

从手机照片到可靠的鉴定

研究者关注的是类似现场工作人员或公民科学家可能拍到的图像：整只蚊子用智能手机在复杂的真实背景下拍摄。目标有两方面。首先，系统应在八个类别之间做出正确区分，其中包括若干携带疾病的埃及伊蚊（Aedes）和库蚊（Culex）物种以及一个“其他/未知”组。其次，系统必须以与现实一致的方式表明其预测的置信度，以便决策者可以安全地设定阈值，例如决定何时触发对某一街区的后续实地检查。校准不良的系统在新地点或不同相机类型下可能听起来很自信，但实际上经常出错。

两条视觉路径协同工作

为实现这些目标，团队构建了一个结合两种互补“观察”方式的图像分析管线。一条路径使用传统的卷积神经网络（CNN），擅长捕捉局部纹理特征，如体鳞、条纹和翅脉。另一条路径采用较新的Transformer设计，更善于把握跨图像的整体部位布局，如翅膀、胸部与腹部的比例。两条路径并行处理同一张蚊子照片，然后将各自的判断送入共享的决策模块。多样化的设计有助于系统在姿态、焦点或设备不同的照片中保持稳定性。

同时学习细粒度与粗粒度标签

一项关键创新在于训练系统处理物种标签的方式。系统不是只学习一项任务，而是同时学习两项任务。一个“头”预测主训练集中所有八个类别；第二个“头”专注于区分两种彼此关系密切且具有公共卫生意义的埃及伊蚊物种。通过联合学习这些细粒度与粗粒度的区分，模型在区分容易混淆的相似物种时变得更锋利，同时仍能识别更广泛的类别集合。在训练过程中，作者还有意对数据进行再平衡，使得稀有物种获得更多影响力，避免系统仅偏向于最常见的蚊子。

将原始分数转为值得信赖的置信度

另一个核心进展是系统如何融合来自两条视觉路径和两个头的信息。模型并非简单地对各内部来源的预测取平均，而是根据它们过去的表现学习应当信任每个来源的程度，这一过程称为校准堆叠（calibrated stacking）。随后将组合得分通过一种称为温度缩放（temperature scaling）的简单调整步骤，微调置信度的“锋利度”。团队还对每张图像进行多次略微不同的裁剪和翻转测试，平均这些结果以减少随机波动。综合这些步骤后，最终置信度评分在即便应用于从未见过的独立数据集时，也能与真实错误率紧密匹配。

在实验室与野外都接近完美的准确率

为评估实际效果，作者在一个大型的八类智能手机图像集合上训练并调优模型，然后在该集合的保留图像以及一个完全独立、仅用于测试的埃及伊蚊数据集上进行评估。在原始八类任务上，他们的方法达到约99.5%的准确率，略高且稳定优于强大的单模型基线和简单集成方法。在未见过的两物种测试集上，识别正确率超过99%。同样重要的是，其置信度校准良好：当模型报告90%确定性时，实际错误率约为10%，而许多早期的蚊子识别系统并未衡量或保证这一点。

对公共卫生的意义

对于非专业读者，结论是这项工作不仅提供了一个高精度的物种识别器，而且其自报的置信度值得信赖。这样的组合使机构能够设定稳定的规则——例如“对模型至少80%确定为危险物种的任何地点进行调查”——并期望这些规则在不同手机、地区和光照条件下表现一致。尽管在极端情况下（如非常模糊或被严重遮挡的昆虫）仍存在挑战，但该系统为大规模蚊虫监测提供了一个实用、可部署的基线，并为未来处理新物种、新设备甚至额外感测模式（例如声音）的工具奠定了基础。

引用: Nazari, M.Z., Zarchi, M.S., Emadi, S. et al. A novel deep learning approach for mosquito species classification via a dual-head structure and calibration-aware fusion architecture. Sci Rep 16, 7208 (2026). https://doi.org/10.1038/s41598-026-35453-1

关键词: 蚊子识别, 深度学习, 病媒监测, 经校准的人工智能, 图像分类