Clear Sky Science · tr
Biyoakustik makine öğrenimi için 459 türden böcek sesleri içeren bir veri kümesi
Böceklerin Gizli Dünyasını Dinlemek
Doğanın “küçük çoğunluğunun” birçok sesi kuşlardan veya kurbağalardan değil böceklerden gelir: cırlayan çekirgeler, rasp sesi çıkaran çekirgeler ve vızıldayan ağustos böcekleri. Bilim insanları böcek popülasyonlarının dünya genelinde çöküp çökmediğini anlamaya çalışırken, bu sesler hayati ipuçları sağlayabilir. Ancak tıkırtılar ve vızıltılardan oluşan küresel bir koroyu somut verilere dönüştürmek, türleri kulağıyla tanıyabilen bilgisayarları gerektirir — ve bu, uygun eğitici verilerin eksikliği nedeniyle geri kaldı. Bu çalışma, bu potansiyeli açığa çıkarmak için özenle seçilmiş büyük bir böcek kayıt koleksiyonunu tanıtıyor.

Neden Böcek Şarkıları Önemli
Böcekler ekosistemler için vazgeçilmezdir, ancak birçok türün azaldığına dair kanıtlar var. Tuzaklarla böcek yakalama veya görsel anket gibi geleneksel izleme yöntemleri yavaş, yoğun emek gerektiren ve dünyanın çeşitliliğinin yalnızca küçük bir kısmını kapsayan yaklaşımlardır. Ses başka bir yol sunar. Birçok çekirge, cırcır böceği ve ağustos böceği türlere özgü şarkılar üretir; bu şarkılar uzak mesafelere yayılır ve küçük, ucuz kayıt cihazlarıyla yakalanabilir. Bilgisayarlar bu şarkıları güvenilir şekilde türlerle eşleştirebilirse, bilim insanları ve hatta vatandaş bilimciler, minimum müdahaleyle kıtalar çapında böcek çeşitliliğini izleyebilirler.
Küresel Bir Ses Kütüphanesi Oluşturmak
Yazarlar, InsectSet459 adında yeni bir veri kümesi derlediler; bu küme 459 böcek türünden yaklaşık 26.298 ses dosyası—yaklaşık 9,5 günlük ses—içeriyor. Çoğu iki çok sesli gruba ait: Orthoptera (çekirgeler, cırcır böcekleri ve akrabaları) ve Cicadidae (ağustos böcekleri). Bu böcekleri kendileri kaydetmek yerine ekip üç büyük açık platformdan yararlandı: xeno-canto, iNaturalist ve BioAcoustica. Bu web siteleri dünya genelinde hem uzmanlar hem de vatandaş bilimciler tarafından etiketlenmiş tür kayıtları barındırır ve ham materyal için zengin kaynaklardır. Araştırmacılar yalnızca doğrulanmış tür tanımlamalarına ve açık lisanslara sahip kayıtları indirdiler, dosyaları standartlaştırıp kırparken olabildiğince çok akustik çeşitliliği korudular.
Gürültünün Temizlenmesi
Binlerce kayıt toplamak tek başına yeterli değildir; bir makine öğrenimi veri kümesi ayrıca gizli tuzaklardan kaçınmalıdır. Ekip kapsamlı bir “çoğaltma kaldırma” işlemi gerçekleştirdi; aynı ses dosyasının farklı kullanıcı adları veya platformlarda görünse bile tekrar yüklemelerini çıkardılar. Her türü farklı zaman ve yerlerden gelen kayıtlarla sınırladılar, uzun dosyaları iki dakikalık segmentlere kırptılar, nadir formatları dönüştürdüler ve her türün en az on ayrı kayda sahip olmasını sağladılar. Birçok ses veri kümesinin aksine, tüm dosyaları tek bir örnekleme hızına zorlamamayı seçtiler. Böcekler sıklıkla yüksek perdeli veya hatta ultrasonik çağrılar ürettiğinden, 8 ila 500 kilohertz arasında değişen orijinal kayıt hızlarını korumak, aksi halde kaybolabilecek önemli ayrıntıları saklar.

Veriyi Teste Sokmak
InsectSet459’un otomatik tanıma için gerçekten yararlı olduğunu göstermek amacıyla yazarlar, ses ve görüntü görevleri için orijinal olarak geliştirilmiş iki son teknoloji derin öğrenme modelini eğittiler. Her iki model de sesi zaman ve frekans üzerindeki enerjiye benzer görüntüsel temsillere dönüştürdü ve ardından bu desenleri türlerle ilişkilendirmeyi öğrendi. Görülmemiş kayıtlarda test edildiğinde, türleri orta düzeyde başarıyla ayırt ettiler: kaçırılan tespitler ile yanlış alarmları dengeleyen katı ölçütte yaklaşık %57 puan ve basit doğrulukta %70’in üzerinde. Performans, çok sayıda kaydı olan türler için özellikle güçlüydü—çoğunlukla %80’in üzeri. Sadece birkaç örnekle temsil edilen türlerde ve modellerin öne çıkardığı özelliklerin frekans aralığı dışında kalan çağrılarda performans keskin şekilde düştü.
İleriye Dönük Anlamı
Bu erken modeller nadir türler ve çok yüksek perdeli çağrıcılar için özellikle kusursuz olmasa da, sonuçlar tek, iyi küratörlüğü yapılmış bir veri kümesinin yüzlerce böcek türünün yararlı otomatik tanınmasını zaten sağlayabileceğini gösteriyor. InsectSet459 bir temel olarak tasarlandı: sesi temsil etmenin yeni yollarını denemek, birden çok örnekleme hızını ele almak ve doğal olarak dengesiz verilerle başa çıkmak için gerçekçi, zorlu bir test ortamı. Araştırmacılar algoritmaları iyileştirdikçe—muhtemelen ultrasonik bilgiyi, daha iyi veri çoğaltmasını ve bölgeye özgü ince ayarı dahil ederek—bu veri kümesi gece korosundaki cıvıltı ve vızıltıları böcek biyoçeşitliliği için hassas, küresel bir izleme sistemine dönüştürmeye yardım edebilir.
Atıf: Faiß, M., Ghani, B. & Stowell, D. A dataset of insect sounds from 459 species for bioacoustic machine learning. Sci Data 13, 499 (2026). https://doi.org/10.1038/s41597-026-07123-4
Anahtar kelimeler: böcek biyoakustiği, biyoçeşitlilik izlemesi, makine öğrenimi, akustik veri kümeleri, vatandaş bilimi