Clear Sky Science · he

מאגר נתונים של צלילי חרקים מ-459 מינים ללמידת מכונה ביו-אקוסטית

· חזרה לאינדקס

להקשיב לעולם הנסתר של החרקים

רבים מהקולות של ה”מיעוט הקטן” של הטבע אינם מגיעים מציפורים או צפרדעים, אלא מחרקים: חיפושיות מצפצפות, יתושי שדה מרשרשים וציקדות זמזמות. כאשר המדענים מנסים להבין האם אוכלוסיות החרקים מתמוטטות ברחבי העולם, קולות אלו עלולים לספק רמזים חיוניים. אבל הפיכת המקהלה העולמית של קליקים וזמזומים לנתונים מוצקים דורשת מחשבים שיודעים לזהות מינים לפי שמיעה — משימה שמעוכבת על ידי חוסר בנתוני אימון מתאימים. המחקר הזה מציג אוסף גדול ומסודר בקפידה של הקלטות חרקים שנועד לפתוח פוטנציאל זה.

Figure 1
Figure 1.

מדוע שירי החרקים חשובים

חרקים חיוניים למערכות אקולוגיות, ועדויות מצביעות על כך שמינים רבים נמצאים בירידה. ניטור מסורתי — לכידת חרקים במלכודות או סקר חזותי — איטי, נדרש עבודה רבה ומכסה רק חלק קטן ממגוון העולם. הקול מציע נתיב נוסף. רבים מהחגבונים, הסרטניים והציקדות מייצרים שירים ספציפיים למין שנעשים למרחקים וניתן ללכודם על ידי מקליטים קטנים וזולים. אם מחשבים יוכלו להתאים את השירים הללו למינים באופן אמין, מדענים ואפילו מדענים אזרחיים יוכלו לנטר את מגוון החרקים ברחבי יבשות עם פגיעה מינימלית.

בניית ספריית צלילים גלובלית

המחברים הרכיבו מאגר נתונים חדש בשם InsectSet459, הכולל 26,298 קבצי שמע — בערך 9.5 ימי צליל — מ-459 מיני חרקים. רובם שייכים לשתי קבוצות בעלות פעילות קולית גבוהה: Orthoptera (חגבונים, יתושי שדה ובני משפחה) ו-Cicadidae (ציקדות). במקום להקליט את החרקים בעצמם, הצוות ניצל שלושה פלטפורמות פתוחות עיקריות: xeno-canto, iNaturalist ו-BioAcoustica. אתרים אלה מארחים הקלטות מתויגות לפי מין שנשלחו על ידי מומחים ומדענים אזרחיים מרחבי העולם, מה שהופך אותם למקורות עשירים לחומר הגולמי. החוקרים הורידו רק הקלטות עם זיהוי מין מאומת ורישיונות פתוחים, ואז סטנדרטיזציה וגזירה של הקבצים תוך שימור מגוון אקוסטי ככל הניתן.

ניקוי הרעש

איסוף של אלפי הקלטות לבדו אינו מספיק; מאגר נתונים ללמידת מכונה חייב גם להימנע ממלכודות נסתרות. הצוות ביצע “הסרת כפל” נרחבת, הסיר העלאות כפולות של אותו קובץ שמע, גם כשהן הופיעו תחת שמות משתמש שונים או בפלטפורמות שונות. הם הגביל כל מין להקלטות מאזורים וזמנים נפרדים, קיצרו קבצים ארוכים לקטעים של שתי דקות, המירו פורמטים לא שגרתיים, והבטיחו שלכל מין יהיו לפחות עשר הקלטות נפרדות. בניגוד לרבים ממאגרים אודיו, הם בחרו לא לכפות קצב דגימה יחיד לכל הקבצים. חרקים לעתים מייצרים קריאות גבוהות או אפילו על-קוליות, ולכן שמירת קצבי ההקלטה המקוריים — בטווח של 8 עד 500 קילוהרץ — שומרת על פרטים חשובים שעשויים להתפספס אחרת.

Figure 2
Figure 2.

בדיקת הנתונים במבחן

כדי להראות ש-InsectSet459 שימושי לזיהוי אוטומטי, המחברים אימנו שני מודלים מתקדמים של למידת עומק שפותחו במקור למשימות קול ותמונה. שני המודלים המירו את האודיו להצגות דמויות-תמונה של אנרגיית הקול לאורך זמן ותדר, ואז למדו לקשר את התבניות הללו למין. בהיבחן על הקלטות שלא נראו בעבר, הם הבחינו במינים בהצלחה מתונה באופן כללי: כ-57% במדד מחמיר שמאזן בין החמצות לתראות שווא, ומעל 70% דיוק פשוט. הביצועים היו חזקים במיוחד — לעתים מעל 80% — עבור מינים עם הרבה הקלטות. הם צנחו בחדות עבור מינים המיוצגים בכמה דוגמאות בלבד, ועבור אלו שקראותיהם מחוץ לטווח התדר שהמודלים מדגישים בתכונותיהם.

מה משמעות הדבר להמשך

למרות שהמודלים המוקדמים הללו רחוקים ממושלמים, במיוחד עבור מינים נדירים וקוראים בעלי צליל גבוה מאוד, התוצאות מראות שמאגר יחיד ומסודר היטב כבר יכול להניע זיהוי אוטומטי שימושי של מאות מיני חרקים. InsectSet459 נועד לשמש בסיס: משטח מבחן מציאותי ומאתגר לניסויים בדרכים חדשות לייצוג קול, התמודדות עם קצבי דגימה מרובים וטיפול בנתונים שאינם מאוזנים בטבע. ככל שהחוקרים ימנעו אלגוריתמים — וככל שהם ישלבו מידע על-קולי, הגדלת נתונים טובה יותר וכיול עד אזורי — מאגר זה יכול לעזור להפוך את מקהלת הלילה של צפצופים וזמזומים למערכת ניטור עדינה וגלובלית של מגוון החרקים.

ציטוט: Faiß, M., Ghani, B. & Stowell, D. A dataset of insect sounds from 459 species for bioacoustic machine learning. Sci Data 13, 499 (2026). https://doi.org/10.1038/s41597-026-07123-4

מילות מפתח: ביו-אקוסטיקה של חרקים, ניטור מגוון ביולוגי, למידת מכונה, מאגרי נתונים אקוסטיים, מדע אזרחי