Clear Sky Science · de
Tomaten-Multi-Winkel-Multi-Pose-Datensatz für fein abgestuftes Phänotyping
Warum Tomaten und intelligente Kameras wichtig sind
Tomaten sind nicht nur ein Salatgrundnahrungsmittel; sie gehören zu den weltweit wichtigsten Kulturpflanzen und sind ein Arbeitspferd der Pflanzenforschung. Züchter und Forschende untersuchen Tomatenpflanzen ständig im Detail – wie Blätter wachsen, wann Blüten aufgehen, wie Früchte ihre Farbe verändern –, um robustere, schmackhaftere und widerstandsfähigere Sorten zu entwickeln. Diese genaue Inspektion erfolgt jedoch meist mit dem Auge, was langsam, schwer reproduzierbar und je nach Beobachter unterschiedlich ist. Dieser Artikel stellt TomatoMAP vor, eine große, sorgfältig gestaltete Sammlung von Tomatenbildern, die es Computern ermöglicht, Pflanzen aus vielen Blickwinkeln zu betrachten und so das menschliche Schätzen bei der Pflanzenbewertung zu verringern.

Eine neue Bildbibliothek des Tomatenwachstums
TomatoMAP ist ein umfassender Bilddatensatz, der sich auf die Kulturtomate Solanum lycopersicum konzentriert. Er enthält 68.080 Farbfotos, die das Leben von 101 im Gewächshaus gezogenen Pflanzen über mehr als fünf Monate abbilden. Anstatt nur einige wenige Momentaufnahmen zu erfassen, wird jede Pflanze immer wieder fotografiert, während sie wächst, und es werden verschiedene Stadien wie Blüte und Fruchtreife dokumentiert. Für jedes Bild liefern Expert:innen reichhaltige Labels: einfache Begrenzungsrahmen, die sieben wichtige Regionen von Interesse markieren – Blätter, Blütenstände, Fruchtstände, Triebe und mehr – sowie Wachstumsstadien-Tags auf Grundlage einer standardisierten Skala, die in der Agronomie üblich ist. In einem separaten Satz von Nahaufnahmen werden einzelne Knospen, Blüten und Früchte bis auf Pixel-Ebene umrandet, was eine sehr feinkörnige Analyse ermöglicht.
Pflanzen von allen Seiten sehen
Zur Erstellung dieses Datensatzes bauten die Forschenden eine spezielle Bildaufnahme-Station, die eine rotierende Plattform mit vier synchronisierten Kameras kombiniert. Tomatenpflanzen, die unter kontrollierten Gewächshausbedingungen gezogen werden, werden auf die Drehscheibe gestellt, die sich in 30-Grad-Schritten dreht, um einen vollständigen Kreis zu absolvieren. Bei jedem Schritt nehmen Kameras, die auf vier Höhen und Winkel positioniert sind, gleichzeitig Bilder auf und erzeugen so eine Multi-Winkel-Ansicht derselben Pflanzenpose. Über 163 Tage lieferte dieses Setup mehr als 64.000 Bilder in moderater Auflösung für die Klassifikation von Wachstumsstadien und die Organerkennung sowie 3.616 hochauflösende Nahaufnahmen für detaillierte Segmentierung. Dieses Multi-View-Design bewahrt die dreidimensionale Struktur – etwa wie Blätter überlappen oder wie Blüten- und Fruchtstände angeordnet sind –, die mit einzelnen, flachen Bildern schwer einzufangen ist.
Computern beibringen, Pflanzenmerkmale zu lesen
TomatoMAP ist nicht nur eine Fotogalerie; es ist auch ein Testfeld für moderne künstliche Intelligenz. Das Team trainierte und evaluierte leichte, schnelle Computer-Vision-Modelle, die für einen potenziellen Echtzeiteinsatz im Gewächshaus ausgewählt wurden. Ein kompaktes Bildklassifikationsnetz lernte, Pflanzen-Wachstumsstadien zuzuordnen. Ein effizientes Objektdetektionsmodell lernte, Pflanzenbestandteile wie Blätter, Blütenstände und Fruchtstände in jedem Bild zu lokalisieren. Für die Nahaufnahmen zeichnete ein Instanz-Segmentierungsmodell die präzise Kontur einzelner Knospen, Blüten und Früchte nach und unterschied anhand von Größe und Farbe zwischen frühen und späten Entwicklungsstadien. Die Autor:innen zeigen, dass diese Modelle hohe Genauigkeit erreichen, insbesondere bei größeren Blüten und Früchten, und schnell genug laufen können, um für kontinuierliche Überwachung praktikabel zu sein.

Aufbau eines schrittweisen digitalen Workflows
Um die automatisierte Phänotypisierung zuverlässiger zu machen, entwarfen die Forschenden einen dreistufigen „kaskadierenden“ Workflow. Zuerst werden die Daten von einfachen Ganzpflanzenbildern bis hin zu detaillierten Segmentierungen organisiert. Zweitens sind die Modelle in einer Kette angeordnet: Ein Wachstumsstadien-Klassifikator steuert, welche Pflanzen oder Zeitpunkte an einen Detektor weitergegeben werden, der dann die relevantesten Regionen für das Segmentierungsmodell hervorhebt. Schließlich werden die Ausgaben aller Modelle zu einer konsolidierten Beschreibung der Merkmale jeder Pflanze zusammengeführt, etwa wie viele Früchte vorhanden sind und in welchen Stadien sie sich befinden. Durch die Strukturierung sowohl der Daten als auch der Modelle auf diese Weise ist es weniger wahrscheinlich, dass sich Fehler aufschaukeln, und jeder Schritt kann verbessert oder ersetzt werden, ohne das gesamte System neu aufbauen zu müssen.
Wie gut Maschinen dem menschlichen Auge entsprechen
Da menschliche Expert:innen nicht immer übereinstimmen, prüfte das Team sorgfältig, wie eng KI-Modelle und Spezialist:innen übereinstimmen. Sie verglichen Hunderte von Bildern, die unabhängig voneinander von fünf Expert:innen und von einem trainierten Detektionsmodell annotiert wurden. Mithilfe einer standardisierten Übereinstimmungsmetrik zeigten sowohl Experte–Experte- als auch KI–Experte-Vergleiche eine „beinahe perfekte“ Konsistenz. Dies deutet darauf hin, dass die automatisierten Methoden, zumindest für die hier untersuchten Strukturen und Stadien, mit der Zuverlässigkeit geschulter menschlicher Beobachter mithalten können, während sie Ermüdung und Inkonsistenz vermeiden.
Was das für künftige Kulturen bedeutet
TomatoMAP zeigt, dass mit dem richtigen Bildaufnahmesystem und sorgfältiger Annotation Computer das Tomatenwachstum aus vielen Blickwinkeln detailliert verfolgen können und dabei nahe an das Expertenurteil heranreichen. Für Pflanzenzüchter und Landwirt:innen eröffnet dies die Möglichkeit schnellerer, objektiverer Tests neuer Sorten und Anbaubedingungen – von der Bewertung der Fruchtlast bis hin zur Erkennung subtiler Unterschiede in der Pflanzenarchitektur. Auch wenn einige Pflanzenorgane weiterhin schwerer perfekt zu erfassen sind und weitere Arbeiten nötig sind, um Modelle an spezifische Geräte anzupassen, legt dieser Datensatz die Grundlage für skalierbares, bias-reduzierendes digitales Phänotyping, das letztlich helfen könnte, widerstandsfähigere und produktivere Kulturen von Gewächshauexperimenten bis auf den Esstisch zu bringen.
Zitation: Zhang, Y., Struckmeyer, S., Kolb, A. et al. Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping. Sci Data 13, 309 (2026). https://doi.org/10.1038/s41597-026-06926-9
Schlüsselwörter: Tomaten-Phänotypisierung, Pflanzenbildgebung, Multi-View-Datensatz, Computer Vision in der Landwirtschaft, Pflanzenzüchtung