Clear Sky Science · zh

高斯-哈尔变换融合增强 DEIM 用于石榴成熟度检测

· 返回目录

为不断增长的需求带来更智能的收获

准确把握果实何时可采收是农业中最重要且最困难的决策之一。本研究针对石榴这一在经济与营养价值上日益重要的作物,提出了解决方案。研究者构建了一个紧凑的人工智能系统,能够分析在真实果园中用普通相机拍摄的照片,判断每颗石榴从幼芽到完全成熟的不同生长阶段,而无需依赖人工目测或耗时的实验室检测。目标是让自动化采收、产量预测和果园管理更快、更准确,并实现在低功耗设备上的可行性。

Figure 1
Figure 1.

为什么石榴生长难以察觉

在真实果园环境中,识别石榴并不像听上去那么简单。生长季初期,绿色的小果实在茂密的绿叶中几乎难以分辨,这会让主要依赖颜色信息的许多计算机视觉方法困惑。其后,正在成熟的果实可能被叶片部分遮挡,或因光照不均而落入深色阴影,导致算法定位框偏离或漏检。大多数既有系统也仅关注采收后的果实或生长期的单一点,这限制了它们在整个生长季节中用于灌溉、施肥和病虫害管理的实用性。此外,极为精确的模型往往体积庞大、耗能高,不适合在现场机器人和边缘设备上运行。

教相机超越颜色去“看”东西

为克服这些障碍,研究者构建了一个名为 GLMF-DEIM 的新型检测系统。首先,他们在中国山东的果园中收集了 5,855 张高质量图像数据集,拍摄时间覆盖 4 到 10 月,包含各种光照与天气条件。专家标注了 11,482 个单独的石榴芽、花与果实,并将其划分为五个生长阶段和三个尺寸范围。这一丰富数据集让模型学习石榴在各个发育阶段的外观特征——从紧闭的幼芽到色彩鲜明的成熟果实——以及它们在不同时间和不同叶遮挡程度下的表现。

关注纹理与细节,而不仅仅是颜色

GLMF-DEIM 的核心是一组巧妙的技术,帮助计算机在不浪费计算资源的情况下将果实与叶片区分开来并捕捉细小的、微妙的特征。前端模块使用类似将声音分解为低高频的方法,将图像分解为平滑区域与锐利边缘,并先对微小背景噪声做温和平滑处理。由于石榴果皮相对光滑,而叶片构成了繁复的纹理背景,这种基于频率的视角即便在相似绿度下也更易区分它们。其他轻量级模块则自适应地控制图像下采样方式,以保留与成熟度相关的重要表面细节,并学习在不同空间尺度上关注分布的信息,从小芽到大果均能兼顾。

Figure 2
Figure 2.

识别每一枚果实,无论大小

除了识别纹理外,系统还必须处理场景中散布的不同大小果实。为此,作者设计了一个特征融合网络,构建出一种金字塔式的图像表示。在较高层级,模型捕捉宏观形状;在较低层级,则保留细粒度的边缘与纹理。信息在这座金字塔中上下流动,使得每一检测层既理解上下文又保有局部细节。检测头采用现代的“Transformer”架构——一种同时建模图像中多个点之间关系的方法——并配合精炼的训练策略,向其提供密集多样的样本以及对过度自信错误和过低置信命中都予以惩罚的损失函数。这些选择共同促进系统快速收敛,并在果实重叠与背景复杂的困难场景中保持鲁棒性。

更高精度,更低计算量

在与主流目标检测系统的对比测试中,新方法表现出色。在标准评估设置下,它对成熟石榴的识别精度约为 93%,即使在更严格的评分规则下也能维持强劲表现。对小而难以发现的目标尤其有显著提升,同时对大果实的检测也同样出色。与此同时,它所需的计算量与参数远少于那些笨重的模型,使其适合部署在田间机器人、无人机或低成本监测站上。通俗地说,这意味着配备相机的设备可以在石榴园中巡查,可靠地跟踪每棵树果实的生长进展,帮助农户决定何时及何处采收或采取干预措施——而无需谷仓里放置超级计算机。

引用: Wang, Y., Liu, S., Hao, P. et al. Gaussian-Haar transform fusion enhances DEIM for pomegranate maturity detection. Sci Rep 16, 8246 (2026). https://doi.org/10.1038/s41598-026-39620-2

关键词: 石榴检测, 果实成熟度, 智慧农业, 计算机视觉, 深度学习模型