Clear Sky Science · de

Ein multimodales Datenset zur Insektenbiodiversität mit Bildern und DNA auf Fallen‑ und Individuumsniveau

· Zurück zur Übersicht

Warum winzige Insekten und große Daten wichtig sind

Weltweit verändern sich Insektenpopulationen schnell; manche Gruppen nehmen ab, bevor Wissenschaftler sie überhaupt beschreiben konnten. Traditionelle Methoden zum Sortieren, Benennen und Zählen von Insekten sind abhängig von knapp verfügbarer Exper­tenzeit und mühsamer Arbeit am Mikroskop. Dieser Artikel stellt eine neue Art von Ressource vor, die detailreiche Fotografien und DNA‑Informationen für Zehntausende winziger Lebewesen aus realen Feldfallen zusammenführt. Durch die Verbindung von Biologie mit moderner Computer Vision wollen die Autoren beschleunigen, wie wir Insektenleben auf einem sich wandelnden Planeten messen und überwachen.

Figure 1
Figure 1.

Von Feldzelten zu digitalen Exemplaren

Das Projekt, MassID45 genannt, beginnt in den nördlichen Wäldern und Feuchtgebieten Schwedens und Finnlands, wo spezielle, zeltartige Malaise‑Fallen fliegende Insekten in Sammelgefäße leiten. In der Saison 2021 wurden 45 wöchentliche Proben aus 19 Standorten für eine gründliche Analyse ausgewählt. Im Labor wurde jeder gemischte Fang gewogen, schonend verarbeitet, um DNA freizusetzen, und in eine flache Schale mit einer dünnen Alkohollösung gegeben. Die Insekten wurden ausgebreitet und von oben mit einer hochauflösenden Kamera unter kontrollierter Beleuchtung fotografiert, wodurch ein einzelnes "Bulk‑Bild" entstand, in dem tausende Individuen als nadelkopfgroße Formen erscheinen.

Die gleichen Insekten auf zwei Arten sehen

Nach den Bulk‑Aufnahmen teilte das Team die Proben in einzelne Insekten für detailliertere Untersuchungen. Jedes Exemplar wurde in eine winzige Vertiefung gesetzt oder auf Nadeln präpariert und nah fotografiert. Gleichzeitig wurde für jedes Insekt ein kurzer, standardisierter DNA‑Abschnitt – oft als Barcode bezeichnet – mit modernen Hochdurchsatz‑Sequenzierern gelesen. Das ergab mehr als 35.000 einzelne Barcode‑Sequenzen. Durch den Vergleich dieser Sequenzen mit großen Referenzdatenbanken konnten die Forschenden die meisten Exemplare in bekannte Gruppen einordnen, etwa Fliegen, Käfer und Schmetterlingsfamilien, und so eine DNA‑verankerte Liste erstellen, welche Arthropoden in jeder Fallenprobe vorkamen.

Computern beibringen, winzige Lebewesen zu finden

Um die Fotos der Schalen für die Automatisierung nutzbar zu machen, mussten die Autoren Computern beibringen, wo sich jedes Insekt befindet und zu welcher groben Gruppe es gehört. Sie verwendeten einen zweistufigen Annotierungsprozess. Zuerst umriss ein Algorithmus grob jedes dunkle Objekt in einem Schalenbild, dann verfeinerten menschliche Annotatoren diese Umrisse mithilfe eines KI‑gestützten Webtools, sodass jedes Insekt – oft nur wenige Pixel breit – seine eigene saubere Maske erhielt. Zweitens prüfte ein Experte jedes maskierte Insekt und ordnete es der feinsten taxonomischen Ebene zu, die auf dem Foto erkennbar war, geleitet von einer kundenspezifischen Liste erwarteter Gruppen, abgeleitet aus den zugeordneten DNA‑Barcodes. Diese Strategie konzentrierte die Expertenarbeit auf Erkennung statt auf mühsames Zeichnen und führte dazu, dass über 17.000 Arthropoden in den Bulk‑Bildern mit robusten Gruppennamen verknüpft wurden.

Figure 2
Figure 2.

Wie gut funktioniert das System?

Das Team behandelte MassID45 anschließend als Belastungsprobe für moderne Computer Vision. Bulk‑Bilder wurden in sich überlappende Kacheln aufgeteilt, damit winzige Insekten noch scharf genug für die Analyse blieben, und mehrere hochmoderne Bildsegmentierungsmodelle wurden bewertet. Allgemeine "Zero‑Shot"‑Systeme, die diese Daten zuvor nie gesehen hatten, taten sich schwer: Sie übersahen tendenziell die kleinsten Insekten und verwechselten sie mit Stücken von Schmutz. Im Gegensatz dazu schnitten Modelle, die auf den sorgfältig beschrifteten MassID45‑Bildern nachtrainiert wurden, deutlich besser ab beim Auffinden und Umreißen von Individuen, insbesondere bei häufigen Gruppen wie Fliegen und Wespen. Dennoch blieben die allerkleinsten Springschwänze und andere blasse, punktartige Formen oft schwer vom Hintergrund zu unterscheiden, was ein inhärentes visuelles Limit aufzeigt.

Was das für die Überwachung des Lebens auf der Erde bedeutet

MassID45 ist kein einzelner neuer Algorithmus, sondern ein reichhaltiges Referenzdatenset, das andere Forschende herunterladen und weiterentwickeln können. Indem es Schalen‑Fotos, Bilder einzelner Exemplare, DNA‑Sequenzen und Expertengruppenlabels aus realen Feldproben verknüpft, bietet es ein realistisches Trainingsfeld für Computer, um zu lernen, Schwärme winziger Arthropoden zu zählen und zu charakterisieren. Während die Bilder selten Arten‑ebene‑Identifikationen erlauben, erfassen sie zuverlässig breitere Gruppen, die oft ausreichen, um Verschiebungen in Insektengemeinschaften über Zeit und Raum zu erkennen. In der Praxis bedeutet das, dass künftige Überwachungsprogramme einfache Fallenfotografie mit DNA‑Probenahme und Machine Learning kombinieren könnten, um schnellere, detailliertere und besser skalierbare Einblicke in die Insektenbiodiversität zu liefern, als es menschliche Expertinnen und Experten allein je könnten.

Zitation: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

Schlüsselwörter: Insektenbiodiversität, DNA‑Barcoding, Computer Vision, ökologische Überwachung, Machine‑Learning‑Datensatz