Clear Sky Science · nl

Een multimodaal dataset voor insectenbiodiversiteit met afbeeldingen en DNA op vallen- en individueel niveau

· Terug naar het overzicht

Waarom kleine insecten en grote data ertoe doen

Over de hele wereld veranderen insectenpopulaties snel; sommige groepen nemen af nog voordat wetenschappers ze hebben kunnen beschrijven. Traditionele methoden om insecten te sorteren, benoemen en tellen zijn afhankelijk van schaarse experts en nauwkeurig werk onder de microscoop. Dit artikel introduceert een nieuw soort hulpbron die gedetailleerde foto’s en DNA‑informatie samenbrengt voor tienduizenden kleine dieren gevangen in echte veldvallen. Door biologie te koppelen aan moderne computer vision willen de auteurs versnellen hoe we insectenleven meten en monitoren op een veranderende planeet.

Figure 1
Figuur 1.

Van veldtenten naar digitale exemplaren

Het project, MassID45 genoemd, begint in de noordelijke bossen en wetlands van Zweden en Finland, waar speciale tentachtige Malaise‑vallen vliegende insecten in verzamelbuisjes leiden. In het seizoen 2021 werden 45 wekelijkse monsters van 19 locaties geselecteerd voor diepgaande analyse. In het laboratorium werd elke gemengde vangst gewogen, voorzichtig behandeld om DNA vrij te geven en over een ondiepe schaal met een dun laagje alcohol gegoten. De insecten werden uitgespreid en van boven gefotografeerd met een hoge resolutie camera onder zorgvuldig gecontroleerde belichting, waardoor één "bulkafbeelding" ontstond waarin duizenden individuen als speldenknop‑grote vormen te zien zijn.

Dezelfde insecten op twee manieren zien

Na het maken van bulkfoto’s splitste het team de monsters in individuele insecten voor gedetailleerder werk. Elk exemplaar werd in een eigen klein kuiltje geplaatst of op een pinnetje gezet en van dichtbij gefotografeerd. Tegelijk werd voor elk insect een korte, gestandaardiseerde DNA‑reeks — vaak een barcode genoemd — uitgelezen met moderne high‑throughput sequencingmachines. Dit leverde meer dan 35.000 individuele barcodesequenties op. Door die sequenties te vergelijken met grote referentiedatabanken konden de onderzoekers de meeste exemplaren in bekende groepen plaatsen, zoals vliegen, kevers en nachtvlinderfamilies, wat een DNA‑geankerde inventaris opleverde van welke arthropodengroepen in elk valmonster voorkwamen.

Computers leren kleine beestjes te vinden

Om de bulktray‑foto’s nuttig te maken voor automatisering moesten de auteurs computers leren waar elk insect zich bevindt en tot welke brede groep het behoort. Ze gebruikten een twee‑staps annotatieproces. Eerst omlijnde een algoritme ruwweg elk donker object in een schaalafbeelding, waarna menselijke annotatoren deze omtrekken verfijn­den met een AI‑geassisteerde webtool, zodat elk insect — vaak slechts een handvol pixels breed — een nette maskering kreeg. Ten tweede onderzocht een expert elk gemaskeerd insect en wees het toe aan het fijnste taxonomische niveau dat op de foto zichtbaar was, gestuurd door een aangepaste lijst van verwachte groepen afgeleid van de overeenkomende DNA‑barcodes. Deze werkwijze concentreerde de expertise op herkenning in plaats van op tijdrovend tekenen en resulteerde erin dat meer dan 17.000 arthropoden in de bulkafbeeldingen aan robuuste groepsnamen werden gekoppeld.

Figure 2
Figuur 2.

Hoe goed werkt het systeem?

Vervolgens behandelde het team MassID45 als een stresstest voor moderne computer vision. Bulkafbeeldingen werden opgesplitst in overlappende tegels zodat kleine insecten scherp genoeg bleven voor analyse, en verschillende state‑of‑the‑art beeldsegmentatiemodellen werden geëvalueerd. Algemene "zero‑shot" systemen, die deze data nog nooit eerder hadden gezien, hadden moeite: ze misten vaak de kleinste insecten en verwisselden ze met stukjes vuil. Daarentegen presteerden modellen die werden bijgetraind op de zorgvuldig gelabelde MassID45‑beelden veel beter in het vinden en omlijnen van individuen, vooral bij veelvoorkomende groepen zoals vliegen en wespen. Zelfs dan bleven de allerkleinste springstaarten en andere bleke, vlekkerige vormen vaak moeilijk te onderscheiden van de achtergrond, wat een inherente visuele beperking aantoont.

Wat dit betekent voor het volgen van leven op aarde

MassID45 is geen enkel nieuw algoritme maar een rijk referentiedataset dat andere onderzoekers kunnen downloaden en verder op kunnen bouwen. Door trayniveau‑foto’s, beelden van individuele exemplaren, DNA‑sequenties en deskundig vastgestelde groepslabels van echte veldmonsters te koppelen, biedt het een realistische oefenomgeving voor computers om te leren swarms van kleine arthropoden te tellen en te karakteriseren. Hoewel de beelden zelden soortniveau‑identificatie toelaten, leggen ze betrouwbare bredere groepen vast, wat vaak voldoende is om verschuivingen in insectengemeenschappen in tijd en ruimte aan het licht te brengen. In de praktijk betekent dit dat toekomstige monitoringsprogramma’s eenvoudige valfotografie kunnen combineren met DNA‑monsters en machine learning om sneller, gedetailleerder en op grotere schaal inzicht te geven in insectenbiodiversiteit dan ooit mogelijk zou zijn met alleen menselijke experts.

Bronvermelding: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

Trefwoorden: insectenbiodiversiteit, DNA-barcoding, computer vision, ecologische monitoring, machine learning-dataset