Clear Sky Science · fr
Un ensemble de données de sons d’insectes provenant de 459 espèces pour l’apprentissage automatique bioacoustique
Écouter le monde caché des insectes
Beaucoup des sons de la « petite majorité » de la nature ne proviennent pas des oiseaux ou des grenouilles, mais des insectes : le chant des grillons, le grincement des sauterelles et le bourdonnement des cigales. Alors que les scientifiques s’efforcent de déterminer si les populations d’insectes s’effondrent à l’échelle mondiale, ces sons pourraient fournir des indices essentiels. Mais transformer un chœur mondial de clics et de bourdonnements en données exploitables exige des ordinateurs capables de reconnaître les espèces d’insectes à l’oreille — ce qui a été freiné par le manque de données d’entraînement adaptées. Cette étude présente une vaste collection d’enregistrements d’insectes, soigneusement organisée, conçue pour libérer ce potentiel.

Pourquoi les chants d’insectes sont importants
Les insectes sont essentiels aux écosystèmes, et pourtant des preuves suggèrent que de nombreuses espèces déclinent. Le suivi traditionnel — capturer des insectes dans des pièges ou les inventorier visuellement — est lent, demande beaucoup de travail et ne couvre qu’une fraction de la diversité mondiale. Le son offre une autre voie. Beaucoup de sauterelles, de grillons et de cigales produisent des chants spécifiques à chaque espèce qui se propagent loin et peuvent être captés par de petits enregistreurs peu coûteux. Si des ordinateurs pouvaient associer ces chants aux espèces de façon fiable, les chercheurs et même les scientifiques amateurs pourraient surveiller la diversité des insectes à l’échelle des continents avec un minimum de perturbation.
Construire une bibliothèque sonore mondiale
Les auteurs ont constitué un nouvel ensemble de données baptisé InsectSet459, contenant 26 298 fichiers audio — environ 9,5 jours de son — provenant de 459 espèces d’insectes. La plupart appartiennent à deux groupes particulièrement vocaux : les Orthoptères (sauterelles, grillons et apparentés) et les Cicadidae (cigales). Plutôt que d’enregistrer eux-mêmes ces insectes, l’équipe s’est appuyée sur trois grandes plateformes ouvertes : xeno-canto, iNaturalist et BioAcoustica. Ces sites hébergent des enregistrements étiquetés par espèce, réalisés par des experts et des citoyens du monde entier, ce qui en fait des sources riches de matière première. Les chercheurs n’ont téléchargé que les enregistrements avec une identification d’espèce confirmée et des licences ouvertes, puis ont standardisé et découpé les fichiers tout en préservant autant que possible la diversité acoustique.
Épurer le bruit
Collecter des milliers d’enregistrements ne suffit pas ; un ensemble de données pour apprentissage automatique doit aussi éviter les pièges cachés. L’équipe a effectué une large « déduplication », supprimant les téléchargements répétés du même fichier audio, même lorsqu’ils apparaissaient sous des noms d’utilisateurs différents ou sur des plateformes distinctes. Ils ont limité chaque espèce à des enregistrements provenant d’heures et de lieux distincts, tronqué les fichiers longs en segments de deux minutes, converti les formats rares et veillé à ce que chaque espèce dispose d’au moins dix enregistrements distincts. Contrairement à de nombreux ensembles audio, ils ont choisi de ne pas forcer tous les fichiers à un seul taux d’échantillonnage. Les insectes produisent souvent des appels aigus voire ultrasoniques, de sorte que la préservation des taux d’enregistrement d’origine — allant de 8 à 500 kilohertz — conserve des détails importants qui pourraient autrement être perdus.

Mettre les données à l’épreuve
Pour montrer que InsectSet459 est réellement utile pour la reconnaissance automatique, les auteurs ont entraîné deux modèles de pointe en apprentissage profond initialement développés pour des tâches sonores et visuelles. Les deux modèles ont converti l’audio en représentations visuelles de l’énergie sonore selon le temps et la fréquence, puis ont appris à associer ces motifs aux espèces. Testés sur des enregistrements non vus, ils ont distingué correctement les espèces avec un succès modéré globalement : environ 57 % selon une mesure stricte qui équilibre détections manquées et fausses alertes, et plus de 70 % en précision simple. Les performances étaient particulièrement solides — souvent supérieures à 80 % — pour les espèces bénéficiant de nombreux enregistrements. Elles chutaient fortement pour les espèces représentées par seulement quelques exemples, et pour celles dont les appels se situent en dehors de la plage de fréquences mise en évidence par les caractéristiques des modèles.
Ce que cela signifie pour l’avenir
Bien que ces premiers modèles soient loin d’être parfaits, en particulier pour les espèces rares et les émetteurs très aiguës, les résultats montrent qu’un ensemble de données unique et bien organisé peut déjà permettre une reconnaissance automatique utile de centaines d’espèces d’insectes. InsectSet459 est conçu comme une fondation : un banc d’essai réaliste et exigeant pour expérimenter de nouvelles manières de représenter le son, de gérer des taux d’échantillonnage multiples et de traiter des données naturellement inégales. À mesure que les chercheurs affineront les algorithmes — en incorporant potentiellement l’information ultrasonique, une meilleure augmentation des données et un réglage fin spécifique aux régions — cet ensemble de données pourrait aider à transformer le chœur nocturne de pépiements et de bourdonnements en un système de suivi mondial sensible de la biodiversité des insectes.
Citation: Faiß, M., Ghani, B. & Stowell, D. A dataset of insect sounds from 459 species for bioacoustic machine learning. Sci Data 13, 499 (2026). https://doi.org/10.1038/s41597-026-07123-4
Mots-clés: bioacoustique des insectes, suivi de la biodiversité, apprentissage automatique, ensembles de données acoustiques, science participative