Clear Sky Science · he

יישום של רשתות עצביות עמוקות מבוססות להקה ודגמי אנסמבל לשחזור נתוני מוליכות סגולית

2026-02-04 · חזרה לאינדקס

מדוע מילוי פערי נתונים חשוב

מי החוף הם חזית המפגש בין פעילות אנושית לים. מדענים עוקבים אחרי רמת המליחות במים האלה באמצעות מדד הנקרא מוליכות סגולית, שמסייע לגילוי דליפות זיהום, שינויים בזרימת המים המתוקים והמגמות הסביבתיות ארוכות הטווח. אך חיישנים מתקלקלים, סופות משביתות חשמל ולכל מכשיר יש מגבלות. התוצאה היא פערים מתסכלים ברשומות מרכזיות — בדיוק כשמנהלים וחוקרים זקוקים לנתונים רציפים. המחקר שואל שאלה פרקטית: האם בינה מלאכותית מודרנית יכולה לאמץ באופן אמין את שיפוץ הרשומות השבורות כדי שקבלת החלטות חופיתית תתבסס על מידע שלם ומהימן?

צפייה בנשימת המפרץ

החוקרים התמקדו במפרץ מקסיקו, אחד המערכות הימיות הגדולות בעולם ואזורים הנתונים ללחץ תעשייתי וחקלאי כבד. הם השתמשו במדידות מחמש תחנות של הסקר הגאולוגי של ארצות הברית סמוך לנהר פסקאגולה ואגם מולט, שכל אחת מהן רשמה את מליחות המים (באמצעות מוליכות סגולית), טמפרטורה ורמת המים כל 15 דקות. לתחנה אחת, שנקראה E, חסר בערך 5% מנתוני המוליכות הסגולית — בדיוק הבעיה שממנה סובלות רשתות ניטור בעולם האמיתי. הנתונים מהארבע תחנות השכנות יצרו מעין רשת בטיחות סביבתית: גם כשתחנת E ‘‘מעורפלת’’, האחרות המשיכו לצפות. הרעיון המרכזי היה ללמד מודלים ממוחשבים כיצד חמשת התחנות "נושמות" יחד כדי שניתן יהיה להסיק פערים באתר אחד מתוך רשומות שלמות בשאר התחנות.

מבחן לאלגוריתמים חכמים

כדי להתמודד עם הבעיה, הצוות אסף מערך של עשר גישות מודלינג שונות. בקצה אחד היו כלים מוכרים כמו רגרסיה ליניארית מרובה, שמנסים לשרטט יחסי קו ישר בין קלט לפלט. באמצע היו מודלים גמישים יותר כמו רשתות עצביות קלאסיות, מערכות לוגיקה מרומזת (fuzzy), ורשת LSTM מיוחדת המשמשת לעיתים קרובות עבור נתוני סדרות זמן. הם גם השתמשו בשיטה מארגנת עצמית שנקראת Group Method of Data Handling (GMDH) ובגרסה לא‑ליניארית שלה (NGMDH) שיכולה לבנות נוסחאות רב‑שכבתיות בעצמה. לבסוף הובאו שיטות מבוססות עץ: מודל עץ החלטות יחיד (CART) ושתי גישות "אנזמבל" — Random Forest ו‑XGBoost — שמכנסות הרבה עצים לקבלת החלטה סופית, בדומה לפאנל מומחים המצביע על תשובה.

למידה עמוקה בהנעת להקה

אימון רשתות עצביות עמוקות הוא מאתגר בולט: לכולן יש הרבה פרמטרים שיכולים להיתקע בתצורות גרועות. כדי לשפרן, המחברים צימדו את LSTM ו‑NGMDH לשיטת אופטימיזציה חדשה בהשראת תזוזת מים מערבולתית, שנקראת turbulent flow of water‑based optimization (TFWO). בסכימה זו, כל קבוצה אפשרית של פרמטרי מודל מדומיינת כ"חלקיק" הנע בדפוס מערבולי בחלל כל הפתרונות. לאורך מחזורים רבים, הדחפים מכוונים את החלקיקים לאזורי פתרון שמניבים שגיאות חיזוי נמוכות יותר. חיפוש בסגנון להקה זה שיפר את הדיוק של שני סוגי הרשתות באופן מורגש, וצמצם את שגיאותיהם הממוצעות בכ‑6–11 אחוזים. עם זאת, גם המודלים העמוקים המשודרגים הללו הובסו לבסוף על ידי הגישות המבוססות עץ.

האנזמבלים מובילים

המחברים בדקו בקפדנות את כל השיטות בשש תרחישים. בחמש תרחישי "מה אם" הסוו חלקים מרשומות שלמות ובחנו עד כמה כל מודל יכול לשחזר את הערכים החסרים. במקרה האחרון, מהעולם האמיתי, ביקשו מהמחשבים למלא את הפערים האמיתיים בתחנת E באמצעות נתוני השכנות. בכל המבחנים הללו, השיטה הפשוטה של הקו הישר הופיעה הכי גרוע, בעוד שמודלים סטנדרטיים של למידת מכונה הציגו ביצועים טובים בהרבה וצמצמו שגיאה בכמעט מחצית. עצי ההחלטה, החוצים אוטומטית את הנתונים לקבוצות אחידות יותר, שיפרו אף הם. אבל המנצח הברור היה האנזמבל XGBoost: על‑ידי בניית מאות עצים שכל אחד מתקן את טעויות קודמיו, הוא השיג שגיאה נמוכה מאוד והתאמה כמעט מושלמת בין המוליכות הסגולית החזויה לנמדדת. השחזורים שלו עקבו בקפדנות אחרי סדרות הזמן הנצפות ושחזרו את ההתנהגות הסטטיסטית הכוללת של רשומות איכות המים.

מה משמעות הדבר לחופים ולמעבר לכך

ללא מומחיות טכנית, המסר ברור: בינה מלאכותית שעוצבה בקפידה יכולה למלא באופן מהימן חתיכות חסרות ברשומות איכות מי חוף, במיוחד כשתחנות סמוכות מספקות הקשר. אף על פי שרשתות עצביות מתקדמות הן חזקות, המחקר מראה ששיטות אנזמבל מבוססות‑עץ כמו XGBoost מדויקות אף יותר ועלולות להיות הבחירה הטובה ביותר בשטח לשחזור מערכי נתונים סביבתיים. עם כלים חזקים למילוי פערים, מדענים יוכלו לעקוב טוב יותר אחרי שינויים עדינים במליחות החופית, לזהות אירועי זיהום ולתמוך בהחלטות ניהוליות מבלי להיתקל בחסמי כשלי חיישנים בלתי נמנעים. אסטרטגיות דומות ניתנות להתאמה לבעיות הנדסיות וסביבתיות רבות אחרות שבהן זרמי נתונים עשירים, רועשים ולפעמים לא שלמים.

ציטוט: Mahdavi-Meymand, A., Sulisz, W. & Nandan Bora, S. Application of swarm-based deep neural networks and ensemble models for reconstruction of specific conductance data. Sci Rep 16, 7292 (2026). https://doi.org/10.1038/s41598-026-38136-z

מילות מפתח: איכות מי חוף, מוליכות סגולית, למידת מכונה, שחזור נתונים חסרים, XGBoost