Clear Sky Science · ja

データ拡張と転移学習を用いた典型化された動物音の自動検出

2026-04-23 · 一覧に戻る

海に潜む声に耳を澄ます

世界中の海域では、大規模な水中マイクが静かにサウンドスケープを記録しています：打ち寄せる波、船のエンジン、氷の割れる音、そしてクジラの深い歌声。これらのアーカイブには、絶滅危惧種がどこに生息しているか、個体数がどの程度か、そして変化する地球環境にどう対処しているかを示す手がかりが埋もれています。しかし、目と耳で人間がすべてを精査するには音声データがあまりにも膨大です。本研究は、自動化された“聞き手”を訓練する新しい方法を提示します。これは、ある種のシロナガスクジラの歌のように非常に典型的な発声を、良好な録音が一つしかない場合でも確実に検出できます。

なぜ動物の音を見つけるのは難しいのか

科学者たちはますます受動音響モニタリングに依存しています：野外に録音機を置き、後で録音をスキャンして動物の鳴き声を探す方法です。一般的または騒音の大きい種については、最新のディープラーニングシステムはよく機能しますが、数千のラベル付き例と強力な計算資源を必要とします。これは、記録がごくわずかしかない希少種や人里離れた動物にとって致命的な制約ですし、大規模なコンピューティングクラスターを持たない研究グループにとっても問題です。加えて、海の録音は雑音が多い。嵐、氷、船舶による背景雑音が鳴き声をかき消すことがあり、スペクトログラムのかすかな痕跡が本当にクジラに由来するかについて専門家でも意見が分かれることがよくあります。

ほとんど何もないところから大規模な訓練セットを作る

著者らは、個体ごとにほぼ同じ音を出す「典型化された」鳴き声を出す動物に着目しました。彼らは、ターゲットとなる鳴き声のクリーンな例が1つか数個しかない状況から出発して、数千の現実的なバリエーションを作成する半合成（セミシンセティック）な訓練パイプラインを開発しました。標準的な音声処理を用いて、各鳴き声の時間的伸縮、長期的な歌の変化を模したピッチシフト、穏やかな歪みやエコーの追加、実際の海中ノイズとの混合といった処理を行います。重要なのは、これらの変化が既知のクジラの行動や音の伝播に基づいているため、合成された鳴き声は依然として本物のクジラが発した可能性のある見た目と音を保っている点です。

既存のニューラルネットワークを再利用する

検出器を一から訓練するのではなく、チームは転移学習を利用しました：もともと人間の音声検出用に設計されたニューラルネットワークを出発点として、クジラの歌に合わせて微調整したのです。このネットワークは音を短く重なり合うスペクトログラムの「フレーム」として扱い、時間に沿ったパターンを追跡できる再帰層を含んでいるため、長さの異なる呼び声にも対応できます。訓練は消費者向けのハードウェア、つまり標準的なラップトップと控えめなグラフィックスカードで行われ、完了までに約5時間でした。一度訓練されると、システムは前処理と後処理を含めて、海の音声4時間分をおよそ1分半でスキャンできます。

検出器の実地試験

この手法は、絶滅危惧種であるシロナガスクジラの2種類の非常に異なる低周波呼び声で評価されました：南極シロナガスクジラの単純で下降する“Zコール”と、インド洋チャゴス諸島のピグミーシロナガスクジラのより複雑な多部構成の歌です。両ケースとも、検出器は完全に半合成データだけで訓練されました。あるモデルでは、訓練セットはチャゴスの歌の実際の例がたった1つから作られました。性能を公平に評価するため、著者らは既存の「グラウンドトゥルース」注釈ログを盲目的に信頼しませんでした。これらのログには見逃された呼び声が多く含まれていたからです。代わりに、経験豊富なアナリストが検出器とログの間の何千もの不一致を手作業で確認しました。この確定処理の後、最良のチャゴスモデルはターゲット呼び声の99.4%を正しく検出し、適合率は91.2%でした。一方、南極モデルは包括的な評価（明確な呼び声と密集した合唱の両方をカウント）で検出率87%、適合率65%を記録しました。

保全への示唆

専門外の人にとって、これらの数値は検出器が膨大なアーカイブをスキャンして、ほとんどすべての対象クジラの歌を確実にフラグ付けし、誤検出を比較的少なく抑えられることを意味します。それが、録音がめったに得られない少数派で知られていない種を研究する上で大きな前進となります。著者らは、成功は何を「ヒット」と見なすか（例えば重なり合う合唱を含めるかどうか）に関する明確な判断や、正例と負例の慎重な設計に依存すると注意しています。また、専門家のラベルですら不完全であり、検出器を評価するためのより良い基準がまだ必要であることを強調しています。それでも、この枠組みは巧妙なデータ増強と転移学習を用いれば、安価で共有可能な強力な聴取ツールを保全向けに構築でき、世界の音響アーカイブに既に保存されている隠れた声を解き放つ手助けになることを示しています。

引用: Jancovich, B.A., Sanchez, V., Truong, G. et al. Automated detection of stereotyped animal sounds using data augmentation and transfer learning. Sci Rep 16, 13137 (2026). https://doi.org/10.1038/s41598-026-48308-6

キーワード: 受動音響モニタリング, シロナガスクジラの歌, ディープラーニング検出器, 合成トレーニングデータ, 野生生物保全