Clear Sky Science · fr

Détection automatisée de sons animaux stéréotypés utilisant l'augmentation de données et l'apprentissage par transfert

· Retour à l’index

À l’écoute de voix cachées dans l’océan

Aux quatre coins des océans, de vastes microphones sous-marins enregistrent en silence le paysage sonore : vagues qui se brisent, moteurs de navires, glaces qui craquent — et les chants profonds des baleines. Enfouis dans ces archives se trouvent des indices sur l’emplacement des animaux en danger, leur nombre et la manière dont ils s’adaptent à un monde qui change. Pourtant, il y a tout simplement trop d’audio pour que des humains puissent tout parcourir visuellement ou à l’oreille. Cette étude présente une nouvelle manière d’entraîner un « auditeur » automatisé capable d’extraire de façon fiable des appels animaux très stéréotypés — comme certains chants de la baleine bleue — même lorsqu’il n’existe qu’un seul bon enregistrement de cet appel.

Figure 1
Figure 1.

Pourquoi il est si difficile de trouver les sons animaux

Les scientifiques s’appuient de plus en plus sur la surveillance acoustique passive : laisser des enregistreurs dans la nature puis analyser l’audio pour y repérer les appels. Pour les espèces communes ou bruyantes, les systèmes modernes d’apprentissage profond fonctionnent bien, mais ils exigent des milliers d’exemples annotés et des ordinateurs puissants. C’est un obstacle pour les animaux rares ou discrets dont les appels n’ont été enregistrés qu’à quelques reprises, et pour les équipes de recherche qui n’ont pas accès à de grands centres de calcul. De plus, les enregistrements océaniques sont bruités : le fond sonore des tempêtes, des glaces et des navires peut masquer les appels, et les experts humains eux-mêmes sont souvent en désaccord sur les faibles marques dans un spectrogramme qui appartiennent réellement à une baleine.

Construire un grand jeu d’entraînement à partir de presque rien

Les auteurs se sont concentrés sur des animaux produisant des appels très répétables, ou « stéréotypés », où chaque individu produit quasiment le même son. Ils ont développé une chaîne de traitement semi-synthétique qui part d’un ou quelques exemples propres d’un appel cible puis crée des milliers de variantes réalistes. En utilisant des traitements audio standards, le système étire ou comprime légèrement chaque appel dans le temps, décale sa hauteur pour imiter les changements de chant sur le long terme, ajoute de petites distorsions et échos, et le mélange avec du bruit de fond océanique réel. De manière cruciale, toutes ces modifications s’appuient sur des connaissances du comportement des baleines et de la propagation du son, si bien que les appels synthétiques ressemblent toujours à ce qu’un vrai individu aurait pu produire.

Réutiliser un réseau neuronal existant

Plutôt que d’entraîner un détecteur depuis zéro, l’équipe a utilisé l’apprentissage par transfert : elle a démarré avec un réseau neuronal conçu à l’origine pour détecter la parole humaine et l’a affiné pour les chants de baleine. Ce réseau traite le son comme une série de « trames » de spectrogramme courtes et chevauchantes et inclut des couches récurrentes capables de suivre des motifs dans le temps, ce qui lui permet de gérer des appels de longueurs différentes. L’entraînement s’est fait sur du matériel grand public — un ordinateur portable standard avec une carte graphique modeste — et a pris environ cinq heures. Une fois entraîné, le système peut analyser quatre heures d’audio océanique en à peu près une minute et demie, y compris tous les pré- et post-traitements.

Mettre le détecteur à l’épreuve

La méthode a été évaluée sur deux appels très différents à basse fréquence de la baleine bleue en danger : le simple « appel Z » descendant des baleines bleues de l’Antarctique et le chant plus complexe en plusieurs parties des baleines bleues pygmées des Chagos dans l’océan Indien. Dans les deux cas, le détecteur a été entraîné entièrement sur des données semi-synthétiques. Pour un modèle, le jeu d’entraînement a été construit à partir d’un seul exemple réel du chant des Chagos. Pour juger de façon équitable les performances, les auteurs ne se sont pas fiés aveuglément aux journaux d’annotations « vérité-terrain » existants, qui se sont révélés contenir de nombreux appels manqués. À la place, un analyste expérimenté a examiné manuellement des milliers de désaccords entre le détecteur et les journaux. Après cette adjudication, le meilleur modèle des Chagos a correctement détecté 99,4 % des appels cibles avec une précision de 91,2 %, tandis que le modèle antarctique a détecté 87 % avec 65 % de précision selon un score inclusif qui comptait à la fois les appels nets et les chœurs denses.

Figure 2
Figure 2.

Ce que les résultats signifient pour la conservation

Pour un non-spécialiste, ces chiffres signifient que le détecteur peut parcourir d’immenses archives et signaler de façon fiable presque toutes les occurrences d’un chant de baleine donné, avec relativement peu de fausses alertes, même lorsqu’il a été entraîné à partir d’un seul bon enregistrement. C’est un pas important pour l’étude d’espèces peu connues et menacées dont les sons sont rarement capturés. Les auteurs soulignent que le succès dépend de choix clairs sur ce qui compte comme une « détection » — par exemple, s’il faut inclure les chœurs qui se chevauchent — et de la conception soigneuse d’exemples d’entraînement positifs et négatifs. Ils rappellent aussi que les annotations humaines d’experts sont imparfaites et qu’il faut encore de meilleures normes pour évaluer les détecteurs. Néanmoins, ce cadre montre qu’avec une augmentation de données intelligente et l’apprentissage par transfert, des outils d’écoute puissants pour la conservation peuvent être construits à moindre coût et partagés ouvertement, aidant les scientifiques à révéler les voix cachées déjà stockées dans nos archives acoustiques mondiales.

Citation: Jancovich, B.A., Sanchez, V., Truong, G. et al. Automated detection of stereotyped animal sounds using data augmentation and transfer learning. Sci Rep 16, 13137 (2026). https://doi.org/10.1038/s41598-026-48308-6

Mots-clés: surveillance acoustique passive, chants de baleines bleues, détecteur par apprentissage profond, données d'entraînement synthétiques, conservation de la faune