Clear Sky Science · de

YOLO-LSBA: Ein hochpräzises Modell zur Erkennung der Stiele von kleineren Cocktailtomaten

2026-03-31 · Zurück zur Übersicht

Warum intelligenteres Tomatenpflücken wichtig ist

Cocktailtomaten sind köstlich, aber überraschend schwer automatisch zu ernten. Menschliche Pflücker sehen, wo die empfindlichen Stiele die Frucht mit der Ranke verbinden, und schneiden sauber, während Roboter mit diesem kleinen Ziel schwer zurechtkommen, das zwischen Blättern, Zweigen und wechselndem Licht versteckt ist. Diese Studie stellt ein neues Computer‑Vision‑Modell vor, das Robotern hilft, diese dünnen Stiele genau und schnell zu erkennen und damit die vollautomatische Ernte von Cocktailtomaten für moderne Betriebe realistischer macht.

Figure 1. Wie Kameras und ein kompaktes Modell einen Roboter leiten, indem sie die empfindlichen Stiele lokalisieren, an denen Cocktailtomaten hängen.

Die Herausforderung, winzige Stiele zu erkennen

In Gewächshäusern hängen Cocktailtomatenbüsche in verschiedene Richtungen, überlappen einander und liegen in wechselndem Licht und Schatten. Die meisten existierenden Erkennungssysteme konzentrieren sich auf die Früchte selbst, die relativ groß, rund und farbig sind. Die Stiele hingegen sind dünn, teilweise verdeckt und leicht mit nahen Zweigen zu verwechseln. Gerade diese Stiele bestimmen jedoch, wo und wie ein Roboter schneiden muss, damit reife Früchte ohne Quetschungen entfernt werden und die Pflanze nicht beschädigt wird. Die Autoren argumentieren, dass verlässliche Stielerkennung die fehlende Verbindung zwischen dem Erkennen von Tomaten und dem tatsächlichen Pflücken mit einem Roboterarm ist.

Ein umfassenderes Bild aus begrenzten Daten erstellen

Die Forscher begannen mit 3.000 Bildern von Tomatenpflanzen aus einem Gewächshaus in Nordchina, aufgenommen unter vielfältigen Lichtbedingungen und aus verschiedenen Blickwinkeln. Sie markierten jede Tomate als reif, unreif oder Stiel und nutzten dann Datenaugmentierungsverfahren, um den Datensatz mehr als zu vervierfachen. Durch zufälliges Spiegeln, Zuschneiden, Aufhellen, Abdunkeln und Hinzufügen visueller Störungen erzeugten sie über 12.000 Bilder, die reale Variationen nachahmen. Diese reichhaltigere Sammlung hilft dem Modell zu lernen, wie Stiele aussehen, selbst wenn sie dunkel, teilweise verdeckt oder von verwirrendem Hintergrund umgeben sind.

Ein auf kleine Details abgestimmtes Vision‑Modell

Kern der Arbeit ist eine verbesserte Version eines populären Echtzeitdetektors, bekannt als YOLO. Das neue Modell mit dem Namen YOLO‑LSBA ist speziell für kleine, feine Strukturen wie Tomatenstiele abgestimmt. Ein Bestandteil der Verbesserung lässt das Netzwerk über einen größeren Bildbereich „blicken“, ohne dabei feine Details zu verlieren, was seine Fähigkeit erhöht, Stiele von Blättern und Halterungen zu trennen. Ein weiterer Teil reorganisiert den Informationsfluss über Breite und Höhe des Bildes hinweg sowie zwischen Farbebenen und entfernt redundante Signale, sodass das Modell subtileren, stielähnlichen Mustern mehr Aufmerksamkeit schenkt. Eine dritte Komponente kombiniert Merkmale auf verschiedenen Skalen sorgfältig, sodass starke Signale großer Früchte die schwachen Signaturen dünner Stiele nicht überdecken.

Figure 2. Wie ein KI‑Modell schrittweise dünne Tomatenstiele aus unübersichtlichen Bildern isoliert, um präzise Schnittpunkte zu markieren.

Das Modell im Praxistest

Das Team führte umfangreiche Experimente durch, um zu prüfen, wie jeder neue Bestandteil zur Stielerkennung beiträgt. Sie fanden heraus, dass die aufgebohrte Architektur die Präzision der Stielerkennung deutlich verbesserte, während das Modell leichtgewichtig genug blieb, um auf den auf Farmrobotern üblichen kleinen Rechnern zu laufen. In Benchmark‑Tests übertraf YOLO‑LSBA mehrere bekannte Erkennungsmodelle, darunter andere kompakte YOLO‑Varianten und klassische Systeme wie SSD und Faster R‑CNN, insbesondere in der anspruchsvollen Kategorie „Stiel“. Die Autoren setzten das Modell anschließend auf einem Raspberry Pi Single‑Board‑Computer sowie in Feldversuchen im Gewächshaus ein, wo es mit Videoeingaben Schritt hielt und Stiele auch bei überlappenden Früchten oder schlechten Lichtverhältnissen zuverlässig markierte.

Was das für zukünftige Farmroboter bedeutet

Einfach ausgedrückt zeigt die Studie, dass Roboter darauf trainiert werden können, die empfindlichen Stiele von Cocktailtomaten nahezu so verlässlich zu „sehen“ wie ein vorsichtiger menschlicher Pflücker – und das auf bescheidener Hardware. Das YOLO‑LSBA‑Modell erreicht rund 97 Prozent Präzision bei der Stielerkennung und läuft dabei immer noch schnell genug für den Echtzeitbetrieb. Das ebnet den Weg für Ernteroboter, die jede Tomatengreisung anfahren, den sichersten Schnittpunkt finden und Früchte sauber und schonend entfernen. Zwar weisen die Autoren darauf hin, dass noch vielfältigere Felddaten und Langzeittests nötig sind, doch ihr Ansatz bietet eine praktische Blaupause für intelligentere Pflücksysteme, nicht nur für Tomaten, sondern auch für andere in Büscheln wachsende Kulturen.

Zitation: Liu, Q., Chen, F., Zhang, H. et al. YOLO-LSBA: A high-precision model for detecting stems of small-sized cherry tomatoes. Sci Rep 16, 15552 (2026). https://doi.org/10.1038/s41598-026-46348-6

Schlüsselwörter: Ernte von Cocktailtomaten, Erkennung von Fruchtstielen, landwirtschaftliche Robotik, Computer Vision, YOLO‑Modell