Clear Sky Science · ar

مجموعة بيانات لأصوات الحشرات من 459 نوعًا لتعلّم الآلة البيوأكوستيكي

· العودة إلى الفهرس

الاستماع إلى العالم الخفي للحشرات

العديد من أصوات «الأغلبية الصغيرة» في الطبيعة لا تصدر عن الطيور أو الضفادع، بل عن الحشرات: صرير الصرار، وخشخشة الجراد، وزقزقة الزيز. ومع تسارع جهود العلماء لفهم ما إذا كانت أعداد الحشرات تتراجع على مستوى العالم، يمكن لتلك الأصوات أن تقدم دلائل جوهرية. لكن تحويل جوقة عالمية من النقرات والطنين إلى بيانات صلبة يتطلب حواسيب قادرة على التعرف على أنواع الحشرات بالأذن—وهو ما أعاقه نقص بيانات تدريب مناسبة. تقدم هذه الدراسة مجموعة كبيرة ومنتقاة بعناية من تسجيلات الحشرات تم تصميمها لإطلاق هذا الإمكان.

Figure 1
Figure 1.

لماذا تهم أغاني الحشرات

الحشرات ضرورية للنظم البيئية، ومع ذلك تشير الأدلة إلى أن العديد من الأنواع في تراجع. المراقبة التقليدية—مثل اصطياد الحشرات بالفخاخ أو المسح البصري—بطيئة وتحتاج جهدًا كبيرًا وتغطي جزءًا ضئيلاً فقط من التنوع العالمي. يوفر الصوت مسارًا آخر. تنتج العديد من الجراد والصرار والزيز أناشيد مميزة لكل نوع يمكن أن تنتقل لمسافات وتُلتقط بواسطة مسجلات صغيرة ورخيصة. إذا تمكنت الحواسيب من مطابقة هذه الأغاني مع الأنواع بدقة، فسيتمكن العلماء وحتى علم المواطن من رصد تنوع الحشرات عبر القارات مع إحداث أقل قدر من الإزعاج.

بناء مكتبة صوتية عالمية

جمع الباحثون مجموعة بيانات جديدة أطلقوا عليها اسم InsectSet459، تحتوي على 26,298 ملفًا صوتيًا—ما يوازي نحو 9.5 أيام من الصوت—من 459 نوعًا من الحشرات. ينتمي معظمها إلى مجموعتين صوتيتين نشطتين: رتبة Orthoptera (الجراد، والصرار، والأقارب) وعائلة Cicadidae (الزيز). بدلًا من تسجيل هذه الحشرات بأنفسهم، استند الفريق إلى ثلاث منصات مفتوحة رئيسية: xeno-canto وiNaturalist وBioAcoustica. تستضيف هذه المواقع تسجيلات معنونة بالأنواع من خبراء وعلماء مواطنين حول العالم، مما يجعلها مصادر غنية للمواد الخام. حمّل الباحثون التسجيلات التي تحمل تعريفات نوع مؤكدة وتراخيص مفتوحة فقط، ثم قاموا بتوحيد وتقليم الملفات مع الحفاظ على أكبر قدر ممكن من التنوع الصوتي.

تنقية الضجيج

جمع آلاف التسجيلات ليس كافيًا؛ إذ يجب أن تتجنب مجموعة بيانات لتعلّم الآلة أيضًا المزالق الخفية. أجرى الفريق عملية شاملة لـ«إزالة التكرارات»، حاثين على حذف عمليات الرفع المتكررة لنفس الملف الصوتي حتى وإن ظهرت بأسماء مستخدمين مختلفة أو على منصات مختلفة. قيدوا كل نوع بحيث تكون التسجيلات من أزمنة وأماكن مميزة، وقصّوا الملفات الطويلة إلى مقاطع مدتها دقيقتان، وحوّلوا الصيغ غير الشائعة، وضَمَنوْا أن كل نوع يملك ما لا يقل عن عشرة تسجيلات منفصلة. على عكس العديد من مجموعات البيانات الصوتية، لم يفرضوا توحيد معدل العينات إلى قيمة واحدة. فالحشرات كثيرًا ما تُنتج نداءات عالية النغمة أو حتى فوق السمعي، لذا فإن الحفاظ على معدلات التسجيل الأصلية—التي تتراوح من 8 إلى 500 كيلو هرتز—يحفظ تفاصيل مهمة قد تضيع خلاف ذلك.

Figure 2
Figure 2.

اختبار البيانات عمليًا

لإظهار أن InsectSet459 مفيدة فعلاً للتعرّف الآلي، درب المؤلفون نموذجين عميقين متقدّمين كانا مطورين أصلاً لمهام الصوت والصورة. حول كلا النموذجين الصوت إلى تمثيلات شبيهة بالصور تظهر طاقة الصوت عبر الزمن والتردد، ثم تعلّموا ربط هذه الأنماط بالأنواع. عند الاختبار على تسجيلات لم تُستخدم في التدريب، ميزت النماذج الأنواع بنجاح معتدل إجمالًا: نحو 57% في مقياس صارم يوازن بين الأخطاء الفائتة والإنذارات الكاذبة، وأكثر من 70% من الدقة البسيطة. كان الأداء قويًا بشكل خاص—غالبًا فوق 80%—لدى الأنواع التي تملك عددًا كبيرًا من التسجيلات. وانخفض بسرعة بالنسبة للأنواع الممثلة بعدد قليل من الأمثلة، ولتلك التي تقع نداءاتها خارج نطاق التردد الذي تبرزّه ميزات النماذج.

ماذا يعني هذا للمستقبل

على الرغم من أن هذه النماذج المبكرة ما تزال بعيدة عن الكمال، خاصة للأنواع النادرة والمتصلّين بنغمات عالية جدًا، فإن النتائج تُظهر أن مجموعة بيانات واحدة منظّمة جيدًا يمكنها بالفعل أن تشغّل تمييزًا آليًا مفيدًا لمئات أنواع الحشرات. تهدف InsectSet459 لأن تكون قاعدة: حقل اختبار واقعي وتحدي لتجريب طرق جديدة لتمثيل الصوت، والتعامل مع معدلات عينات متعددة، والتعامل مع بيانات بطبيعة غير متوازنة. ومع تحسين الباحثين للخوارزميات—بما في ذلك دمج المعلومات فوق السمعية، وتحسين تضخيم البيانات، وضبط دقيق خاص بالمناطق—قد تساعد هذه المجموعة في تحويل جوقة الصرير والطنين الليلي إلى نظام رصد عالمي حساس لتنوّع الحشرات.

الاستشهاد: Faiß, M., Ghani, B. & Stowell, D. A dataset of insect sounds from 459 species for bioacoustic machine learning. Sci Data 13, 499 (2026). https://doi.org/10.1038/s41597-026-07123-4

الكلمات المفتاحية: البيوأكوستيك للحشرات, مراقبة التنوع الحيوي, تعلّم الآلة, مجموعات بيانات صوتية, علم المواطن