Clear Sky Science · ja

トラップ単位と個体単位の画像およびDNAを含む昆虫生物多様性のマルチモーダルデータセット

· 一覧に戻る

なぜ小さな昆虫とビッグデータが重要なのか

世界中で昆虫の個体数や群集構造が急速に変化しており、研究者が記載する前に減少しているグループもあります。従来の昆虫の仕分け、命名、個体数カウントの方法は、専門家の時間に依存し、顕微鏡を使った地道な作業を要します。本稿は、実際のフィールドトラップで捕獲された何万もの小さな生物の詳細な写真とDNA情報を統合した新しい種類のリソースを紹介します。生物学と最新のコンピュータビジョンを結びつけることで、著者らは変化する地球上の昆虫の測定と監視を加速することを目指しています。

Figure 1
Figure 1.

フィールドのテントからデジタル標本へ

MassID45と呼ばれるこのプロジェクトは、スウェーデンとフィンランドの北部の森林や湿地で始まります。特殊なテント状のマレーズトラップが飛行性昆虫を集めるボトルへ導きます。2021年のシーズン中に、19箇所からの45週分のサンプルが詳細解析の対象として選ばれました。研究室では、混合した捕獲物を秤量し、DNAを放出させるために優しく処理した後、薄いアルコール層を張った浅いトレーに注ぎました。昆虫は広げられ、慎重に制御された照明下で高解像度カメラで上方から撮影され、何千もの個体がピンの先ほどの大きさで現れる単一の「バルク画像」が作成されました。

同じ昆虫を二つの方法で見る

バルク画像を撮影した後、チームはサンプルを個々の昆虫に分割して詳細作業を行いました。各標本はそれぞれ小さなウェルに入れられるかピンで固定され、接写撮影されました。同時に、短く標準化されたDNA断片(一般にバーコードと呼ばれる)が、高スループットシーケンシング機器を用いて各昆虫ごとに読み取られました。これにより35,000以上の個体バーコード配列が得られました。これらの配列を大規模な参照データベースと照合することで、研究者らは多数の標本をハエ、甲虫、ガ類などよく知られた群に配置でき、各トラップサンプルにどのような節足動物のタイプが含まれていたかをDNAに基づいて確定しました。

コンピュータに小さな生き物を見つけさせる

バルクトレー写真を自動化に役立てるために、著者らはコンピュータに各昆虫の位置と大まかな分類群を教える必要がありました。彼らは二段階のアノテーションプロセスを採用しました。まず、アルゴリズムがトレー画像内の暗い物体を大まかに輪郭抽出し、次に人間のアノテーターがAI支援のウェブツールを使ってこれらの輪郭を精緻化し、しばしば数ピクセル幅しかない各昆虫に対して個別のクリーンなマスクを確保しました。第二に、専門家が各マスクされた昆虫を写真から見える最も詳細な分類階級に割り当て、対応するDNAバーコードから導出した予想グループのカスタムリストを指針としました。この戦略により、専門家の労力は煩雑な描画よりも識別に集中され、バルク画像中で17,000以上の節足動物が確かな群名に結び付けられました。

Figure 2
Figure 2.

そのシステムはどれほど有効か?

次にチームはMassID45を現代のコンピュータビジョンに対する耐久試験として扱いました。バルク画像は非常に小さな昆虫が解析に耐えうる解像度を保てるよう重なり合うタイルに分割され、いくつかの最先端の画像セグメンテーションモデルが評価されました。これまでそのデータを見たことのない一般的な「ゼロショット」システムは苦戦し、最小の昆虫を見落としたり、破片と混同したりする傾向がありました。対照的に、MassID45の細かくラベル付けされた画像で再学習させたモデルは、特にハエやスズメバチのような一般的な群において個体を見つけ輪郭を描く点で大きく向上しました。それでも、非常に小さなトビムシ類や淡い斑点状の形態は背景物質と区別しにくく、視覚的な限界が存在することが示されました。

地球上の生命を追跡することにとっての意義

MassID45は単一の新しいアルゴリズムではなく、他の研究者がダウンロードして発展させることのできる豊富な参照データセットです。トレー単位写真、個体標本画像、DNA配列、実際のフィールドサンプルから得られた専門家の群ラベルを結び付けることで、コンピュータが小さな節足動物の群れを数え特徴づける方法を学ぶための現実的な訓練場を提供します。画像は種レベルの同定を常に可能にするわけではありませんが、より広い分類群を確実に捉えるため、時間や空間における昆虫群集の変化を明らかにするには十分なことが多いです。実務的には、将来のモニタリングプログラムは単純なトラップ写真撮影とDNAサンプリング、機械学習を組み合わせることで、人間の専門家だけでは到底達成できないより速く、より詳細で、より拡張可能な昆虫生物多様性の可視化を実現できる可能性があります。

引用: Orsholm, J., Quinto, J., Autto, H. et al. A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level. Sci Data 13, 630 (2026). https://doi.org/10.1038/s41597-026-07251-x

キーワード: 昆虫の生物多様性, DNAバーコーディング, コンピュータビジョン, 生態モニタリング, 機械学習データセット