Clear Sky Science · he
זיהוי עצמים תת-מימי בזמן אמת באמצעות דינמיקה בתחום התדרים ומודולציה מרחבית משופרת של תכונות
להבחין בבירור מתחת לגלים
העולם מתחת למים חיוני לביטחון המזון, לאנרגיה ולבריאות הסביבה, אך קשה גם לראות בו. מים עכורים, חלקיקים מציפים ואור חלש יכולים להקשות אפילו על משימות פשוטות כמו ספירת זרונחים או בדיקת צנרות בקרקעית הים. עבודה זו מציגה שיטת ראייה ממוחשבת חדשה שעוזרת לרובוטים ולמצלמות תת-מימיים לזהות חיות ים קטנות בדיוק ובמהירות גבוהים יותר, גם כאשר התצפית מטושטשת או מעוננת.

מדוע ראייה תת-מימית קשה כל כך
שונה מהאוויר, המים מעקמים ומפזרים את האור, במיוחד את גווני האדום והצהוב שאליהם העיניים שלנו רגילות לקבל קונטרסט. תמונות שנלקחות מתחת למים נראות לעתים קרובות תכולות-ירוקות, ערפליות ובעלות פרטים מועטים, עם החזר אור חזק מחלקיקים צפים. בעלי חיים קטנים כמו סקלופים או קיפודי ים עלולים לתפוס רק כמה פיקסלים בתמונה ולהיטמע בקלות בסלעים, בחול או בעשבי ים. תוכנת זיהוי קלאסית, שתוכננה במקור לתמונות חדות על היבשה, נוטה לפספס מטרות חלשות אלה או לבלבל בין רעשי רקע לבין בעלי חיים אמיתיים. יחד עם זאת, רובוטים וחיישנים תת-מימיים פועלים בדרך כלל על חומרה מוגבלת, ולכן השיטה חייבת להיות מהירה וקלה למשאבים, ולא רק מדויקת.
דרך מהירה יותר לקרוא תמונות רועשות
המחברים בונים על משפחה עדכנית של מודלים הידועים בשם Detection Transformers, שמגישים תמונה על ידי לימוד יחסים בין כל חלקיה במקום להזיז חלון קטן עליה. הווריאנט שלהם שומר על המהירות בזמן אמת של מערכת קודמת בשם RT-DETR אך מחליף את הישבן (backbone) בחדש שנקרא FasterFDBlock, המתאים יותר לסצנות תת-מימיות רועשות. הישבן הזה משלב טריק שנקרא partial convolution, שמעבד רק חלק מערוצי התמונה כדי לחסוך זמן, עם מבט המבוסס על תחום התדרים של התמונה. על ידי עבודה בתחום התדרים, המודל יכול להפריד בין רעש כתמים אקראי לבין קצוות חדים שמגדירים בעלי חיים, להחליש את הרעש ולשמר את הקצוות, ובכך להפחית חישוב מיותר.
שומרים על חיות קטנות בפוקוס
רשתות ראייה עמוקות לעתים קרובות מאבידות פרטים עדינים כשמכווצות את התמונה שוב ושוב כדי לחלץ דפוסים ברמה גבוהה. זה יכול להיות קריטי לזיהוי סקלופים או זרונחים זעירים שכבר קרובים לסף הראות. כדי להתמודד עם זאת, החוקרים עיצבו מחדש את בלוק הקשב המרכזי במצפן המקודד, ויצרו מה שהם מכנים AIFI-SEFN. במונחים פשוטים, סעיף אחד במודול זה בוחן את התמונה הגדולה באמצעות קשב, בעוד שסעיף משלים מתמקד במרקם ובצורה מקומיים. הוא מבצע pooling והגדלת תכונות על פני קנה מידה, משתמש בקונבולוציות קלות משקל ללכידת קצוות ודפוסים, ואז שולט בכמה מהפרטים הללו עוברים הלאה. התוצאה היא תערובת עשירה יותר של הקשר גלובלי ומבנה מקומי חד, כך שחיות קטנות בולטות יותר לעין על רקעים סלעיים וצמחיים גסים.

שילוב מידע על פני קני מידה
תמונות תת-מימיות נדירות מכילות עצמים בגודל אחיד; אותו סוג אורגניזם עשוי להופיע ככתם זעיר מרחוק או כשטח גדול בקדמת התמונה. שיטות פשוטות של מיזוג מידע משכבות רדודות ועמוקות, כמו חיבור פשוט של מפות תכונה, עלולות להטביע פרטים קטנים תחת איתותים גבוהי-רמה כבדים או לאפשר לרעש שטחי לשלוט בסצנה. מודול ה-Multi-scale Feature Modulation החדש מטפל בכך על ידי סיכום מה שכל שכבה "רואה" באמצעות pooling גלובלי, ואז הקצאת משקלים אדפטיביים לתכונות סמנטיות ולפרטים לכל ערוץ. המשקלים הללו תמיד מסתכמים לאחד, כך שהמודל צריך להחליט, ערוץ אחר ערוץ, האם הפרט חשוב יותר או ההקשר הרחב. המיזוג הסלקטיבי הזה מחזק את האיתותים מהמטרות האמיתיות ומחליש הפרעות מסלעים, חול וצללים, ללא עלות יתר משמעותית.
כמה השיטה עובדת טוב
הצוות בדק את הגישה שלהם על מערך נתונים ציבורי מאתגר של תמונות תת-מימיות שכלל מלפפוני ים, קיפודי ים, סקלופים וזרונחים, רבים מהם קטנים, חופפים או מוסתרים חלקית. בהשוואה למודל RT-DETR המקורי, המערכת החדשה העלתה את ציון הזיהוי הסטנדרטי (mean Average Precision) מ-70.4 ל-72.1 אחוז תוך קיצוץ מספר הפרמטרים ביותר מרבע והפחתת נפח החישוב בכמעט רבע. היא עדיין פועלת ביותר מ-70 פריימים לשנייה, מהיר מספיק לשימוש בזמן אמת על חומרת גרפיקה טיפוסית. השוואות חזותיות של מפות חום ותוצאות זיהוי מראות שהמודל המשופר נצמד טוב יותר לחיות אמיתיות, מתעלם מטרקסטורות מבלבלות בסלעים ועשבי ים, ומשיב יותר מטרות זעירות או בעלות קונטרסט נמוך בסצנות עכורות או בתאורה חלשה.
מה זה אומר לעבודה תת-מימית
במונחים יומיומיים, מחקר זה מראה איך ללמד מודל רזה ומהיר לראות טוב יותר באחד מהסביבות הוויזואליות המאתגרות ביותר על פני כדור הארץ. על ידי עיצוב קפדני של האופן שבו הרשת מתמודדת עם תדרים רעשיים, פרטים מקומיים ותכונות בקני מידה שונים, המחברים הופכים את זיהוי העצמים התת-מימי למדויק ויעיל יותר. איזון זה חשוב לכלי שיט תת-מימיים אוטונומיים ומערכות שדה אחרות שצריכות לקבל החלטות מהירות ואמינות עם כוח חישוב מוגבל. ככל ששיטות אלה יותאמו ליותר מערכי נתונים ולפלטפורמות מוטמעות, הן עשויות לסייע למדענים לנטר את חיי הים, למהנדסים לבדוק מבנים תת-מימיים ולרובוטים לנווט בשטחי קרקעית מורכבים בביטחון רב יותר.
ציטוט: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9
מילות מפתח: זיהוי עצמים תת-מימי, כלי שיט תת-מימיים אוטונומיים, ראייה בזמן אמת, זיהוי עצמים קטנים, תכונות בתחום התדרים