Clear Sky Science · fr
Un jeu de données multimodal sur la biodiversité des insectes avec imagerie et ADN au niveau de la piège et de l'individu
Pourquoi les tout petits insectes et les mégadonnées comptent
Partout dans le monde, les populations d'insectes évoluent rapidement, certains groupes décroissant avant même que les scientifiques aient eu le temps de les décrire. Les méthodes traditionnelles de tri, de nomination et de comptage des insectes reposent sur un temps d'expert rare et un travail minutieux au microscope. Cet article présente un nouveau type de ressource qui rassemble des photographies détaillées et des informations ADN pour des dizaines de milliers de minuscules organismes capturés dans de véritables pièges de terrain. En associant la biologie à la vision par ordinateur moderne, les auteurs cherchent à accélérer la manière dont nous mesurons et surveillons la vie des insectes sur une planète en changement.

Des tentes de terrain aux spécimens numériques
Le projet, appelé MassID45, débute dans les forêts et zones humides du nord de la Suède et de la Finlande, où des pièges Malaise en forme de tente dirigent les insectes volants vers des flacons de collecte. Au cours de la saison 2021, 45 échantillons hebdomadaires provenant de 19 sites ont été choisis pour une analyse approfondie. Au laboratoire, chaque prélèvement mixte a été pesé, traité délicatement pour libérer l'ADN, puis versé dans un plateau peu profond contenant une fine couche d'alcool. Les insectes ont été étalés et photographiés d'en haut avec un appareil à haute résolution sous un éclairage soigneusement contrôlé, créant une unique « image en vrac » où des milliers d'individus apparaissent sous forme de silhouettes de la taille d'une épingle.
Voir les mêmes insectes de deux façons
Après la prise des images en vrac, l'équipe a séparé les échantillons en individus pour un travail plus détaillé. Chaque spécimen a été placé dans sa propre minuscule alvéole ou épinglé et photographié en gros plan. En parallèle, une courte séquence d'ADN standardisée — souvent appelée code-barres — a été lue pour chaque insecte à l'aide de machines de séquençage à haut débit modernes. Cela a permis d'obtenir plus de 35 000 séquences de codes-barres individuelles. La comparaison de ces séquences à de larges bases de référence a permis aux chercheurs d'affecter la plupart des spécimens à des groupes bien connus, tels que les mouches, les coléoptères et les familles de papillons de nuit, fournissant une liste ancrée sur l'ADN des types d'arthropodes présents dans chaque échantillon de piège.
Apprendre aux ordinateurs à repérer de minuscules créatures
Pour rendre les photos des plateaux utiles à l'automatisation, les auteurs ont dû apprendre aux ordinateurs où se trouve chaque insecte et à quel groupe large il appartient. Ils ont utilisé un processus d'annotation en deux étapes. D'abord, un algorithme a esquissé grossièrement chaque objet sombre dans l'image du plateau, puis des annotateurs humains ont affiné ces contours à l'aide d'un outil web assisté par IA, veillant à ce que chaque insecte — souvent de seulement quelques pixels de large — reçoive son propre masque propre. Ensuite, un expert a examiné chaque insecte masqué et l'a assigné au niveau taxonomique le plus fin qu'il pouvait distinguer sur la photographie, guidé par une liste personnalisée de groupes attendus dérivée des codes-barres ADN correspondants. Cette stratégie a concentré l'effort des experts sur la reconnaissance plutôt que sur le dessin fastidieux, et a abouti à ce que plus de 17 000 arthropodes dans les images en vrac soient liés à des noms de groupes robustes.

Quelle est l'efficacité du système ?
L'équipe a ensuite considéré MassID45 comme un banc d'essai pour la vision par ordinateur moderne. Les images en vrac ont été découpées en tuiles qui se chevauchent afin que les très petits insectes restent suffisamment nets pour l'analyse, et plusieurs modèles de segmentation d'image de pointe ont été évalués. Les systèmes « zero-shot » généraux, qui n'avaient jamais vu ces données auparavant, ont eu des difficultés : ils avaient tendance à manquer les plus petits insectes et à les confondre avec des débris. En revanche, les modèles réentraînés sur les images MassID45 soigneusement étiquetées faisaient bien mieux pour localiser et délimiter les individus, en particulier pour les groupes communs comme les mouches et les guêpes. Même ainsi, les plus petits collemboles et autres formes pâles et ponctiformes restaient souvent difficiles à distinguer du fond, mettant en évidence une limite visuelle inhérente.
Ce que cela signifie pour le suivi de la vie sur Terre
MassID45 n'est pas un nouvel algorithme unique mais une riche référence de données que d'autres chercheurs peuvent télécharger et exploiter. En reliant photos de plateaux, images de spécimens individuels, séquences ADN et étiquettes de groupe établies par des experts à partir d'échantillons de terrain réels, il offre un terrain d'entraînement réaliste pour apprendre aux ordinateurs à compter et caractériser des essaims de petits arthropodes. Si les images permettent rarement une identification au niveau de l'espèce, elles saisissent de manière fiable des groupes plus larges, souvent suffisants pour révéler des changements dans les communautés d'insectes au fil du temps et de l'espace. En pratique, cela signifie que de futurs programmes de surveillance pourraient combiner une simple photographie de piège avec des prélèvements ADN et de l'apprentissage automatique pour fournir des vues de la biodiversité des insectes plus rapides, plus détaillées et plus évolutives que ce qui serait jamais possible par des experts humains seuls.
Citation: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x
Mots-clés: biodiversité des insectes, codage ADN, vision par ordinateur, suivi écologique, jeu de données pour apprentissage automatique