Clear Sky Science · sv

En multimodal datamängd för insektsbiodiversitet med bilder och DNA på både fälla- och individnivå

· Tillbaka till index

Varför små insekter och stora data spelar roll

Över hela världen förändras insektspopulationer snabbt, och vissa grupper minskar innan forskare ens hunnit beskriva dem. Traditionella metoder för att sortera, namnge och räkna insekter förlitar sig på knappa expertresurser och tidskrävande arbete vid mikroskop. Den här artikeln presenterar en ny typ av resurs som förenar detaljerade fotografier med DNA-information för tiotusentals små varelser fångade i verkliga fällor ute i fält. Genom att para biologiska data med modern datorseende vill författarna påskynda hur vi mäter och övervakar insektsliv på en föränderlig planet.

Figure 1
Figure 1.

Från fältbivackor till digitala exemplar

Projektet, kallat MassID45, startar i norra skogar och våtmarker i Sverige och Finland, där specialbyggda tältliknande Malaise-fällor leder flygande insekter ner i uppsamlingsflaskor. Under säsongen 2021 valdes 45 veckovisa prover från 19 platser ut för djupgående analys. I laboratoriet vägdes varje blandfångst, bearbetades varsamt för att frigöra DNA och hälldes ut i en grund bricka med ett tunt lager alkohol. Insekterna spreds ut och fotograferades ovanifrån med en högupplöst kamera under noggrant kontrollerad belysning, vilket skapade en enda ”bulkbild” där tusentals individer framträder som knappnålstora former.

Samma insekter sedda på två sätt

Efter bulkfotograferingen delade teamet upp proven i individuella insekter för mer detaljerat arbete. Varje prov placerades i sin egen lilla brunn eller monterades på nål och fotograferades nära. Samtidigt lästes en kort, standardiserad DNA-sekvens—ofta kallad en streckkod—för varje insekt med moderna högkapacitetssekvenseringsmaskiner. Detta gav mer än 35 000 individuella streckkodsekvenser. Genom att jämföra dessa sekvenser med stora referensdatabaser kunde forskarna placera de flesta exemplaren i välkända grupper, som flugor, skalbaggar och fjärilsfamiljer, vilket gav en DNA-förankrad lista över vilka typer av leddjur som förekom i varje fällprov.

Lära datorer att hitta små varelser

För att göra bulkbrickebilderna användbara för automatisering behövde författarna lära datorer var varje insekt fanns och vilken bred grupp den tillhörde. De använde en tvåstegsannotationsprocess. Först skissade en algoritm grovt ut varje mörkt objekt i en brickbild, och sedan förfinade mänskliga annoterare dessa konturer med ett AI-assisterat webbverktyg, så att varje insekt—ofta bara en handfull pixlar brett—fick sin egen rena mask. Därefter granskade en expert varje maskad insekt och tilldelade den den finaste taxonomiska nivå som gick att avgöra från fotografiet, styrd av en specialkomponerad lista över förväntade grupper härledd från matchande DNA-streckkoder. Denna strategi koncentrerade experternas insats på igenkänning snarare än tidsödande ritande, och resulterade i att över 17 000 leddjur i bulkbilderna knöts till robusta gruppnamn.

Figure 2
Figure 2.

Hur väl fungerar systemet?

Teamet behandlade sedan MassID45 som ett stresstest för modernt datorseende. Bulkbilderna delades upp i överlappande plattor så att de små insekterna förblev tillräckligt skarpa för analys, och flera toppmoderna bildsegmenteringsmodeller utvärderades. Generella ”zero-shot”-system, som aldrig tidigare sett dessa data, hade svårt: de missade ofta de minsta insekterna och förväxlade dem med skräp. Däremot presterade modeller som fintränades på de noggrant märkta MassID45-bilderna mycket bättre på att hitta och avgränsa individer, särskilt vanliga grupper som flugor och getingar. Ändå förblev de allra minsta hoppstjärtarna och andra bleka, pricklika former ofta svåra att skilja från bakgrunden, vilket lyfter fram en inneboende visuell gräns.

Vad detta betyder för att följa liv på jorden

MassID45 är inte en enskild ny algoritm utan en rik referensdatamängd som andra forskare kan ladda ned och bygga vidare på. Genom att knyta samman bricknivåfoton, individuella provbilder, DNA-sekvenser och expertmärkta gruppnamn från verkliga fältprov erbjuder den en realistisk träningsmiljö för datorer att lära sig räkna och karaktärisera svärmar av små leddjur. Medan bilderna sällan möjliggör artbestämning fångar de pålitligt bredare grupper, vilket ofta räcker för att visa förändringar i insektssamhällen över tid och rum. I praktiken innebär detta att framtida övervakningsprogram kan kombinera enkel fältsfotografering av fällor med DNA-provtagning och maskininlärning för att leverera snabbare, mer detaljerade och mer skalbara vyer av insektsbiodiversitet än vad som någonsin skulle vara möjligt med enbart mänskliga experter.

Citering: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

Nyckelord: insektsbiodiversitet, DNA-streckkodning, datorseende, ekologisk övervakning, maskininlärningsdatamängd