Clear Sky Science · pl

Wielomodalny zbiór danych dotyczący różnorodności owadów z obrazami i DNA na poziomie pułapki i osobników

· Powrót do spisu

Dlaczego drobne owady i big data mają znaczenie

Na całym świecie populacje owadów zmieniają się szybko, przy czym niektóre grupy maleją zanim naukowcy zdążą je nawet opisać. Tradycyjne metody sortowania, nazywania i liczenia owadów opierają się na ograniczonym czasie ekspertów i żmudnej pracy przy mikroskopach. Ten artykuł przedstawia nowy rodzaj zasobu, który łączy szczegółowe fotografie i informacje genetyczne dla dziesiątek tysięcy drobnych stworzeń złapanych w rzeczywistych pułapkach terenowych. Łącząc biologię z nowoczesnym widzeniem komputerowym, autorzy dążą do przyspieszenia sposobu, w jaki mierzymy i monitorujemy życie owadów na zmieniającej się planecie.

Figure 1
Figure 1.

Od namiotów terenowych do cyfrowych okazów

Projekt o nazwie MassID45 zaczyna się w północnych lasach i mokradłach Szwecji i Finlandii, gdzie specjalne pułapki typu Malaise w formie namiotów kierują latające owady do butelek zbiorczych. W sezonie 2021 wybrano do dogłębnej analizy 45 tygodniowych prób z 19 lokalizacji. W laboratorium każda mieszana próbka była ważona, delikatnie przetwarzana w celu uwolnienia DNA i rozlewana na płytką tacę z cienką warstwą alkoholu. Owady rozkładano i fotografowano z góry wysokiej rozdzielczości aparatem przy starannie kontrolowanym oświetleniu, tworząc jedno „zbiorcze zdjęcie”, na którym tysiące osobników pojawiają się jako maleńkie plamki wielkości przypinka.

Widzieć te same owady dwojako

Po wykonaniu zdjęć zbiorczych zespół rozdzielał próbki na pojedyncze owady do bardziej szczegółowych badań. Każdy okaz umieszczano w osobnej maleńkiej studzience lub nadziewano i fotografowano z bliska. Jednocześnie dla każdego owada odczytywano krótki, ustandaryzowany odcinek DNA — często nazywany „kodem kreskowym” — przy użyciu nowoczesnych maszyn do sekwencjonowania o dużej przepustowości. Uzyskano ponad 35 000 pojedynczych sekwencji kodów kreskowych. Porównanie tych sekwencji z dużymi bazami referencyjnymi pozwoliło badaczom przypisać większość okazów do dobrze znanych grup, takich jak muchówki, chrząszcze i rodziny motyli, dostarczając listy zakotwiczonych w DNA typów stawonogów występujących w każdej próbce z pułapki.

Nauczanie komputerów znajdowania drobnych stworzeń

Aby zdjęcia tac zbiorczych stały się użyteczne do automatyzacji, autorzy musieli nauczyć komputery, gdzie znajduje się każdy owad i do jakiej szerokiej grupy należy. Zastosowali dwustopniowy proces adnotacji. Najpierw algorytm w przybliżeniu obrysował każdy ciemny obiekt na obrazie tacy, następnie ludzie adnotujący dopracowywali te obrysy przy użyciu webowego narzędzia wspomaganego przez AI, zapewniając, że każdy owad — często tylko kilka pikseli szeroki — otrzymał własną czystą maskę. Po drugie, ekspert przejrzał każdy zmaskowany owad i przypisał go do najdrobniejszego poziomu taksonomicznego, jaki był widoczny na fotografii, kierując się niestandardową listą oczekiwanych grup wyprowadzoną z dopasowanych kodów kreskowych DNA. Ta strategia skoncentrowała wysiłek ekspertów na rozpoznawaniu zamiast żmudnego rysowania i doprowadziła do powiązania ponad 17 000 stawonogów na zdjęciach zbiorczych z solidnymi nazwami grupowymi.

Figure 2
Figure 2.

Jak dobrze działa system?

Zespół potraktował MassID45 jako test wytrzymałości dla nowoczesnego widzenia komputerowego. Zdjęcia zbiorcze podzielono na nachodzące na siebie kafelki, aby nawet maleńkie owady pozostały wystarczająco ostre do analizy, i oceniono kilka nowoczesnych modeli segmentacji obrazu. Ogólne systemy „zero‑shot”, które nigdy wcześniej nie widziały tych danych, miały problemy: zwykle pomijały najmniejsze owady i myliły je z fragmentami detrytusu. W przeciwieństwie do nich modele przetrenowane na starannie oznakowanych zdjęciach MassID45 radziły sobie znacznie lepiej z wyszukiwaniem i obrysowywaniem osobników, zwłaszcza powszechnych grup, takich jak muchówki i błonkówki. Mimo to najmniejsze skoczogłówki i inne blade, przypominające kropki formy często wciąż trudno było odróżnić od tła, co podkreśla wrodzone ograniczenie wizualne.

Co to oznacza dla monitorowania życia na Ziemi

MassID45 nie jest pojedynczym nowym algorytmem, lecz bogatym zbiorem referencyjnym, który inni badacze mogą pobrać i na którym mogą budować. Łącząc zdjęcia na poziomie tacy, obrazy pojedynczych okazów, sekwencje DNA i etykiety grup eksperckich z rzeczywistych próbek terenowych, daje realistyczne pole treningowe dla komputerów, by nauczyły się liczyć i charakteryzować roje drobnych stawonogów. Chociaż zdjęcia rzadko pozwalają na identyfikację do poziomu gatunku, niezawodnie uchwytują szersze grupy, które często wystarczają do wykrywania zmian w społecznościach owadów w czasie i przestrzeni. W praktyce oznacza to, że przyszłe programy monitorujące będą mogły łączyć prostą fotografię pułapek z pobieraniem próbek DNA i uczeniem maszynowym, dostarczając szybszych, bardziej szczegółowych i bardziej skalowalnych obrazów różnorodności owadów niż byłoby to kiedykolwiek możliwe przy udziale samych ekspertów.

Cytowanie: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

Słowa kluczowe: różnorodność owadów, barcoding DNA, widzenie komputerowe, monitoring ekologiczny, zbiór danych do uczenia maszynowego