Clear Sky Science · ru

Мультимодальный набор данных по биоразнообразию насекомых с изображениями и ДНК на уровне ловушки и индивидуумов

· Назад к списку

Почему крошечные насекомые и большие данные важны

По всему миру популяции насекомых быстро меняются: некоторые группы сокращаются прежде, чем учёные успевают их описать. Традиционные методы сортировки, наименования и учёта насекомых зависят от ограниченного времени экспертов и кропотливой работы под микроскопом. В этой статье представлен новый ресурс, объединяющий детальные фотографии и ДНК‑данные для десятков тысяч мелких созданий, пойманных в полевых ловушках. Сочетая биологию с современным компьютерным зрением, авторы стремятся ускорить измерение и мониторинг жизни насекомых на меняющейся планете.

Figure 1
Figure 1.

От полевых палаток до цифровых образцов

Проект, получивший имя MassID45, стартует в северных лесах и болотах Швеции и Финляндии, где специальные палаточные ловушки Малаизе направляют летающих насекомых в сборные бутылочки. В сезоне 2021 были отобраны 45 еженедельных проб из 19 мест для глубокого анализа. В лаборатории каждую смешанную пробу взвешивали, аккуратно обрабатывали для выделения ДНК и выливали в мелкий поддон с тонким слоем алкоголя. Насекомых разворачивали и фотографировали сверху на высокоразрешающей камере при строго контролируемом освещении, получая единое «массовое изображение», на котором тысячи индивидуумов видны как крошечные точки.

Видеть одних и тех же насекомых двумя способами

После съёмки массовых изображений команда разделяла пробы на отдельных насекомых для более детальной работы. Каждый экземпляр помещали в свою крошечную лунку или прикалывали и фотографировали крупным планом. Одновременно для каждого насекомого при помощи современных систем высокопроизводительного секвенирования считывали короткий стандартизированный участок ДНК — часто называемый штрихкодом. Это дало более 35 000 отдельных последовательностей штрихкодов. Сравнение этих последовательностей с крупными справочными базами позволило отнести большинство образцов к хорошо известным группам, таким как мухи, жуки и семейства бабочек, что обеспечило ДНК‑якорный список типов членистоногих, обнаруженных в каждой пробе ловушки.

Обучение компьютеров обнаруживать крошечных существ

Чтобы сделать фотографии лотков полезными для автоматизации, авторам пришлось научить компьютеры находить каждое насекомое и определять его основную группу. Они использовали двухэтапный процесс аннотации. Сначала алгоритм примерно выделял каждый тёмный объект на изображении поддона, затем человеческие аннотаторы уточняли эти контуры с помощью веб‑инструмента с поддержкой ИИ, гарантируя, что каждое насекомое — часто всего в несколько пикселей в ширину — получило чистую маску. Затем эксперт просматривал каждую замаскированную особь и присваивал ей как можно более точный таксономический уровень по видимым признакам на фотографии, опираясь на составной список ожидаемых групп, выведённый из сопоставленных ДНК‑штрихкодов. Такая стратегия сконцентрировала усилия экспертов на распознавании, а не на утомительном обводе, и в результате более 17 000 членистоногих на массовых изображениях были связаны с надёжными групповыми именами.

Figure 2
Figure 2.

Насколько хорошо работает система?

Далее команда использовала MassID45 как стресс‑тест для современных методов компьютерного зрения. Массовые изображения разрезали на перекрывающиеся плитки, чтобы крошечные насекомые оставались достаточно резкими для анализа, и оценили несколько передовых моделей сегментации изображений. Общие «zero‑shot» системы, которые раньше не видели таких данных, испытывали трудности: они склонны были пропускать самых мелких насекомых и путать их с мусором. Напротив, модели, дообученные на тщательно размеченных изображениях MassID45, справлялись гораздо лучше с обнаружением и обведением особей, особенно для распространённых групп, таких как мухи и осы. Тем не менее самые мелкие коллемболы и другие бледные пятнистые формы часто всё ещё были трудноотличимы от фонового материала, что подчёркивает существующий визуальный предел.

Что это значит для отслеживания жизни на Земле

MassID45 — не новый алгоритм, а богатый справочный набор данных, который могут скачать и развивать другие исследователи. Объединяя фотографии уровня поддона, изображения отдельных образцов, последовательности ДНК и экспертные групповые метки из реальных полевых проб, он предоставляет реалистичную тренировочную базу для обучения компьютеров счёту и характеристике роев крошечных членистоногих. Хотя изображения редко позволяют определить вид, они надёжно фиксируют более широкие группы, чего часто достаточно для выявления сдвигов в сообществах насекомых во времени и пространстве. На практике это означает, что будущие программы мониторинга смогут сочетать простую фотосъёмку ловушек с ДНК‑анализом и машинным обучением, чтобы получать более быстрые, детальные и масштабируемые представления о биоразнообразии насекомых, чем это когда‑либо было возможно для одних только человеческих экспертов.

Цитирование: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

Ключевые слова: биоразнообразие насекомых, ДНК-штрихкодирование, компьютерное зрение, экологический мониторинг, набор данных для машинного обучения