Clear Sky Science · zh
一种基于轻量级 YOLO 的模型,用于机器人采收中对红椒果串的精准检测
为辛辣收获打造更聪明的机器人
花椒是四川料理特有的麻辣感来源,那些细小的红色外壳看似不起眼,但采摘起来却意外地困难。果实成簇地生长在多刺的枝条上,容易受损,人工采摘既缓慢又具有季节性。本研究提出了一种新的计算机视觉系统,称为 Red-YOLO,旨在帮助小型移动机器人在真实果园中快速且准确地识别这些脆弱的果串,即便果实重叠或被叶片遮挡也能有效检测。

为什么采椒如此棘手
与苹果等大而光滑的果实不同,红色花椒以许多小浆果形式密集生长在带刺的枝条上。果串在不同树上可能差异很大:有的紧密致密,有的稀疏分散,周围还有复杂的枝叶背景和变化的光照。对于机器人来说,判断一个果串何处终止以及每个果串的紧密程度至关重要。夹持力甚至采摘工具的尺寸都必须根据果串的松紧程度调整,否则花椒脆弱的油胞可能破裂,影响品质和价值。
构建真实世界的图像库
由于没有针对该作物的公开图像集合,研究人员首先不得不自建数据集。在四川汉源县的两个生长季中,他们使用消费级智能手机在真实果园拍摄了960张高分辨率方形图像,覆盖不同的日照角度和时辰。每张图像都由人工精细标注,区分紧密和稀疏果串。为使计算机能应对多样性,他们对许多图像进行了数字增强——调整亮度与对比度、水平翻转、扭曲部分网格并旋转视角。这将训练集扩展到4300多张图像,同时保留了一小部分未经处理的照片,用于公正评估最终系统的性能。

更精简、更敏锐的视觉模型
系统的核心是 YOLOv8,这是一种广泛使用的“一次看完”目标检测模型,可在单次快速通过中发现目标,而非多阶段的慢速检测。团队定制了一个极小的模型版本,并针对红椒果串对其进行了结构重塑。他们加入了注意力模块,使网络学会聚焦于最可能含果实的通道和区域,同时忽略天空、枝条和远处树木等干扰。他们重新设计了网络部分结构,以便更高效地重用信息并减少不必要的计算。还将简单的尺寸调整步骤替换为更智能的上采样模块,以重建重叠椒果的细节与边界,帮助模型辨别拥挤果串的起止位置。
为小型机器人提供快速且准确的视觉
为了验证这些改进的价值,研究人员将 Red-YOLO 与较旧、更重的检测系统以及多种现代轻量级 YOLO 变体进行了比较。传统的多阶段模型尽管功能强,但对于紧凑的果园机器人来说速度太慢且资源消耗过高。若干更新的 YOLO 版本表现较好,但在应对小型、部分遮挡的果串或复杂背景时仍然吃力,常漏检果实或将叶片误判为果实。Red-YOLO 达到了更好的平衡:在总体准确率和召回率上均优于所有对比模型,同时将模型参数控制在三百万以下,计算负担足够低以在嵌入式处理器上运行。在多样化的果园场景测试中,Red-YOLO 即使在果实极小、阴影遮挡或严重重叠的情况下也能稳定检测出果串。
从实验模型到果园助手
对非专业读者来说,关键结论是实用性的:这项工作表明,一个精简且精心调整的视觉系统可以为小型采摘机器人在现场提供可靠的“视觉”。借助 Red-YOLO,机器人可自动判断果串是紧密还是稀疏,并在采摘前调整夹持器的尺寸和力度,从而减少损伤并节省人力。尽管当前研究集中于单一产区的某一辣椒品种,但相同的方法——构建针对性数据集并优化精简检测模型——可以推广到其他特色作物。随着这些视觉系统变得更健壮并被更广泛部署,它们有望使采收更快、更安全、更稳定,保证为那些支撑世界多种美味口味的辣椒供应稳定来源。
引用: Zhao, H., He, J., Li, Y. et al. A lightweight YOLO-based model for accurate detection of red pepper clusters in robotic harvesting. Sci Rep 16, 5879 (2026). https://doi.org/10.1038/s41598-026-36671-3
关键词: 机器人采收, 辣椒检测, 计算机视觉, 轻量级 YOLO, 智慧农业