Clear Sky Science · fr
YOLO-LSBA : un modèle haute-précision pour détecter les pédoncules de petites tomates cerises
Pourquoi une cueillette plus intelligente des tomates compte
Les tomates cerises sont délicieuses mais étonnamment difficiles à récolter automatiquement. Les cueilleurs humains voient où les pédoncules délicats relient chaque fruit à la tige et les coupent proprement, tandis que les robots peinent à repérer cette petite cible cachée parmi les feuilles, les branches et les variations d’éclairage. Cette étude présente un nouveau modèle de vision par ordinateur qui aide les robots à repérer ces fins pédoncules avec précision et rapidité, rendant la cueillette entièrement automatisée des tomates cerises plus réaliste pour les exploitations modernes.

Le défi de voir des pédoncules minuscules
En serre, les grappes de tomates cerises pendent dans des directions variées, se chevauchent et se trouvent sous un ensoleillement ou une ombre irréguliers. La plupart des systèmes de vision existants pour la récolte se concentrent sur la détection des fruits eux-mêmes, relativement grands, ronds et colorés. Les pédoncules, en revanche, sont fins, partiellement cachés et facilement confondus avec les branches voisines. Pourtant, ces pédoncules déterminent où et comment un robot doit couper pour retirer les fruits mûrs sans les meurtrir ni déchirer la plante. Les auteurs soutiennent qu’une détection fiable des pédoncules est le chaînon manquant entre la reconnaissance des tomates et leur prélèvement effectif par un bras robotique.
Construire une image plus riche à partir de données limitées
Les chercheurs ont commencé avec 3 000 images de plants de tomates prises dans une serre du nord de la Chine, capturées sous de nombreux éclairages et angles différents. Ils ont annoté chaque tomate comme mûre, non mûre ou pédoncule, puis utilisé des techniques d’augmentation des données pour étendre le jeu d’images plus de quatre fois. En retournant aléatoirement, recadrant, éclaircissant, assombrissant et ajoutant du bruit visuel, ils ont créé plus de 12 000 images reproduisant les variations du monde réel. Cette collection enrichie aide le modèle à apprendre à reconnaître les pédoncules même lorsqu’ils sont sombres, partiellement cachés ou entourés d’arrière-plans déroutants.
Un modèle de vision optimisé pour les petits détails
Le cœur du travail est une version améliorée d’un détecteur temps réel populaire connu sous le nom de YOLO. Le nouveau modèle, appelé YOLO-LSBA, est spécialement ajusté pour les structures petites et fines comme les pédoncules de tomate. Une partie de l’amélioration permet au réseau de « regarder » sur une zone plus large de l’image tout en conservant le suivi des détails fins, ce qui améliore sa capacité à séparer les pédoncules des feuilles et des tuteurs. Une autre partie réorganise la façon dont l’information circule à travers la largeur et la hauteur de l’image et entre les canaux de couleur, éliminant les signaux redondants pour que le modèle se concentre davantage sur les motifs subtils évoquant des pédoncules. Un troisième composant combine soigneusement des caractéristiques à différentes échelles, empêchant les signaux forts des fruits volumineux d’éclipser les signatures faibles des fins pédoncules.

Mise à l’épreuve du modèle
L’équipe a mené des expériences approfondies pour évaluer la contribution de chaque nouveau composant à la détection des pédoncules. Ils ont constaté que l’architecture améliorée augmentait significativement la précision de reconnaissance des pédoncules tout en restant suffisamment légère pour les petits ordinateurs souvent embarqués sur les robots agricoles. Sur des benchmarks, YOLO-LSBA a dépassé plusieurs modèles de détection bien connus, y compris d’autres versions compactes de YOLO et des systèmes traditionnels tels que SSD et Faster R-CNN, notamment pour la catégorie difficile des pédoncules. Les auteurs ont ensuite déployé le modèle sur un ordinateur monocarte Raspberry Pi et dans des essais en serre, où il a traité le flux vidéo en temps réel et marqué précisément les pédoncules même lorsque les fruits se chevauchaient ou que l’éclairage était faible.
Ce que cela signifie pour les futurs robots agricoles
En termes simples, l’étude montre que l’on peut entraîner des robots à « voir » les pédoncules fragiles des tomates cerises presque aussi fiablement qu’un cueilleur humain attentif, et ce sur du matériel modeste. Le modèle YOLO-LSBA atteint environ 97 % de précision dans la détection des pédoncules tout en restant assez rapide pour une utilisation en temps réel. Cela ouvre la voie à des robots de récolte capables d’approcher chaque grappe, de trouver le point de coupe le plus sûr et de retirer les fruits proprement et en douceur. Les auteurs notent toutefois que des données de terrain plus variées et des tests longitudinaux restent nécessaires ; leur approche offre néanmoins une feuille de route pratique pour des systèmes de cueillette plus intelligents, pas seulement pour les tomates mais aussi pour d’autres cultures en grappes.
Citation: Liu, Q., Chen, F., Zhang, H. et al. YOLO-LSBA: A high-precision model for detecting stems of small-sized cherry tomatoes. Sci Rep 16, 15552 (2026). https://doi.org/10.1038/s41598-026-46348-6
Mots-clés: récolte de tomates cerises, détection de pédoncules, robotique agricole, vision par ordinateur, modèle YOLO