Clear Sky Science · he
אלגוריתם לזיהוי עצמים של פסולת בנייה והריסה מבוסס מנגנון תשומת-לב מקובץ ומדורג
למה מיון פסולת חכם יותר חשוב
כל פעם שנבנה או נהרס מבנה נוצרות ערמות של הריסות—חתיכות בטון, לבנים שבורות, אריחים, עץ, מתכת ופלסטיק. פסולת בנייה והריסה מהווה כיום כ-40% מהאשפה בערים רבות. בתוך ההריסות הללו חבויים חומרים בעלי ערך שניתן למחזר למוצרי בניין חדשים, אך כיום חלק גדול מהמיון נעשה עדיין בידי ידיים, תהליך איטי, יקר ומסוכן. מאמר זה מציג מערכת ראייה ממוחשבת חדשה שיכולה לזהות ולמיין בזמן אמת סוגים שונים של פסולת בנייה, גם כאשר החלקים קטנים, חופפים או דומים זה לזה מאוד.

האתגר של לראות סדר בערמת הריסות
מיון פסולת מעורבת קשה להפליא למכונות. חתיכות בטון ואריחים קרמיים, למשל, לעתים קרובות חולקות צבעים ומרקמים דומים, מה שמקל על הבלבול ביניהן. בסצנות אמיתיות חתיכות גדולות יושבות לצד שברים זעירים, חפצים רבים מכוסים חלקית ותאורה או זווית המצלמה יכולים לשנות את מראה החומרים. מערכות בינה מלאכותית קודמות למשימה זו היו או לא מדויקות דיו, התקשו עם עצמים קטנים מאוד, או דרשו כוח חישוב כבד שאינו מציאותי לשימוש בקווי מיון ובציוד נייד. המחברים מתמקדים בשיפור משפחה פופולרית של מודלים מהירים לזיהוי עצמים, הידועים כ-YOLO, כדי להתמודד טוב יותר עם סצנות מבולגנות אלה מבלי להאט את המערכת.
דרך חדשה שבה הרשת נותנת תשומת-לב
הלב של השיטה החדשה הוא "גב" (backbone) שעוצב מחדש ומעבד תמונות בשלבים, בהשראת מודלים טרנספורמריים המשמשים בשפה ובראייה. במקום להתייחס לתמונה רק כתמונות מקומיות קטנות, הרשת לומדת כיצד אזורים מרוחקים קשורים זה לזה, מה שעוזר כאשר עצמים חופפים או משתלבים ברקע. כדי לעשות זאת ביעילות, המחברים מציגים מנגנון תשומת-לב מקובץ ומדורג. הם מפצלים את הייצוג הפנימי של התמונה לקבוצות, מאפשרים לכל קבוצה להתמקד בתבניות שבתוכה, ואז מעבירים בהדרגה מידע מקבוצה לקבוצה הבאה. סכמת "מיקוד מקומי קודם, העדנה גלובלית מאוחר יותר" מאפשרת למודל להדגיש הבדלים עדינים בין, למשל, בטון לקרמיקה, תוך שמירה על זיכרון וחישוב נמוכים מספיק לשימוש בזמן אמת.
מבט על הפסולת בכמה סולמות בו-זמנית
מעבר לזיהוי סוגי החומר, המערכת חייבת גם לאתר עצמים בגדלים שונים מאוד, משברים זעירים ועד קורות גדולות. לכן המודל משתמש בשכבות מרובות שכל אחת פועלת ברזולוציה שונה של התמונה. מודול אינטראקציה ייעודי מאפשר לזרום מידע גם משכבות גסות ורחבות לשכבות עדינות ומפורטות ולהיפך. שכבות גסות מספקות הקשר כללי—איפה הערימות, איך העצמים מצטלמים יחד—בעוד שכבות עדינות מוסיפות קצוות חדים ומרקמים. רכיב תשומת-לב מרחבי מדגיש אזורים המידעיים ביותר בכל סולם ומדכא רקע מסיח. לבסוף, סניפים נפרדים לזיהוי בכל רזולוציה מנבאים היכן העצמים נמצאים ולפי איזה חומר הם משתייכים, עם מערך אימון שמעודד מיקום מדויק של תיבות ואיזון בין מציאת עצמים רבים לבין הימנעות מאזהרות שווא.

בדיקת המערכת
כדי להעריך את הגישה שלהם השתמשו החוקרים בשני מאגרי נתונים ציבוריים של פסולת בנייה והריסה. אחד, בשם BTC, מכיל תמונות של לבנים, אריחים ובטון; השני, SWP, מתמקד בברזל, עץ ופלסטיק וכולל אלפי תמונות ברזולוציה גבוהה. הצוות השווה את שיטתם לכמה גרסאות קיימות של מודלי YOLO שהותאמו למשימה זו. המערכת שלהם השיגה ציונים גבוהים במידה ניכרת בשני מאגרי הנתונים, במיוחד במדד הקשה יותר השופט עד כמה תיבות החיזוי תואמות בקפדנות את קווי המתאר האמיתיים של העצמים. היא הייתה חזקה במיוחד בשמירה על שיעור זיהוי גבוה מאוד—כמעט לא החמצה של עצמים—בעוד שהעומס החישובי נשאר מתון, תחרותי או נמוך יותר משל מודלים מתחרים רבים.
מה זה אומר למיחזור במציאות
עבור הקהל הרחב, המסקנה המרכזית היא שהמחברים בנו "עין" חכמה יותר למיון הריסות בנייה, כזו שיכולה לזהות ולהבחין בחומרים למיחזור בסצנות עמוסות וכאוטיות טוב יותר מכלים קודמים. על ידי שילוב מנגנוני תשומת-לב יעילים עם עיבוד רב-סקאלי, המערכת מזהה חתיכות קטנות וחופפות באופן מדויק יותר, ועדיין פועלת במהירות מספקת לשימוש בענן התעשייתי. עוד קיימת בלבול מסוים בין פסולת לרקע, אך הביצועים הכלליים חזקים ויציבים בין מאגרי נתונים שונים. בטווח הארוך, התפתחויות כאלה יכולות לסייע למתקני מיחזור להשיב יותר חומרי ערך בעבודה ידנית מופחתת, להפחית שימוש במטמנות ולהפוך את תעשיית הבנייה לנקייה וחסכונית יותר במשאבים.
ציטוט: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5
מילות מפתח: גילוי פסולת בנייה, ראייה עמוקה, מיחזור אוטומטי, זיהוי עצמים, מנגנוני תשומת-לב