Clear Sky Science · he

WMambaFuse: רשת מיזוג תמונות אינפרא-אדום ונראות המבוססת על וויפלט ממבה

· חזרה לאינדקס

ראיית לילה חדה יותר לעולם רועש

כאשר מצלמות מביטות באותו סצנה באור נראה ובאינפרא-אדום, כל מבט חושף אמת שונה: האחת מציגה פרטים חדים וצבע, והשנייה מדגישה חום וחפצים מוסתרים בחשכה. מאמר זה מציג את WMambaFuse, שיטה חדשה בראייה ממוחשבת שממזגת את שתי הפרספקטיבות האלה לתמונה בודדת וברורה יותר. המטרה פשוטה אך עוצמתית: לעזור לאנשים ולמכונות לראות טוב יותר בלילה, בתנאי מזג אוויר קשים ובסביבות מורכבות על ידי שילוב היתרונות של שני סוגי התמונות.

Figure 1
Figure 1.

למה שתי עיניים טובות יותר מאחת

מצלמות באור נראה לוכדות מרקמים עדינים, קצוות חדים וצבעים טבעיים, אך הן נכשלות באור חלש, בערפל או בסנוור. מצלמות אינפרא-אדום עושות את ההפך: הן חשות חום ויכולות לחשוף אנשים, כלי רכב או ציוד בחושך, אך לרוב תמונותיהן מטושטשות וחסרות פרטים. מיזוג שתי המקורות הללו מבטיח את הטוב משני העולמות, אך זהו איזון עדין. מערכות קודמות רבות התמקדו או במיזוג ברמת הפיקסל במישור התמונה או בעבודה טהורה בתחום התדרים, שם מפרקים תמונות לצורות גסות ודפוסים עדינים. למעשה, גישות שנשארות אך ורק בתחום אחד נוטות לוותר על מבנה גלובלי או על פרטים עדינים, מה שמוביל לאובדן קצוות, מרקמים שטופי צבע או תוצאות לא יציבות בסצנות מורכבות.

מנוע בשלושה חלקים כדי לראות יותר

WMambaFuse מתמודד עם האתגר הזה בעיצוב רב-שכבתי בקפידה: מקודד, מודול מיזוג ומפענח. המקודד משתמש בטרנספורמר מודרני "בחלונות" כדי לבחון את הסצנה במספר סולמות, וללכוד גם מרקם מקרוב וגם הקשר רחב יותר. חשבו עליו כקידמת במה חכמה שלומדת לייצג את התכונות החשובות של כל תמונת קלט בלי חוקים שנכתבו ביד. המפענח משחזר לאחר מכן את התמונה הממוזגת הסופית באמצעות מבנה רקורסיבי, שמסייע לשמור על עקביות התכונות בין הסולמות ומונע אובדן פרטים כשהמידע זורם דרך הרשת. יחד, שני החלקים הללו פועלים כמו עין ומוח מאומנים היטב שמכינים ובונים מחדש את המידע הוויזואלי.

מיזוג מרחב ופרט בו-זמנית

החידוש המרכזי טמון במודול המיזוג, שמפריד במפורש בין "איפה הדברים נמצאים" ל"כמה הם מפורטים". ענף אחד, שמכונה מודול תשומת לב מרחבית, מסתכל ישירות על מאפייני התמונה ומחליט אילו אזורים מהקלטים האינפרא-אדום והנראה ראויים להדגשה. הוא לומד להבליט מטרות תרמיות בהירות, כמו אנשים או כלי רכב, תוך שמירה על מרקמים עדינים מהתמונה הנראית. הענף השני פועל בתחום התדרים, ומפצל את מאפייני התמונה לשכבת בסיס חלקה ולכמה שכבות קצה ומרקם בכיוונים אופקי, אנכי ואלכסוני. כאן מנגנון Wavelet-Mamba חדש מעביר את פסי הפרטים הכיווניים הללו דרך מודל מרחב-מצבים מושחל שיכול לעקוב ביעילות אחרי דפוסים בטווחים ארוכים, ומשפר קצוות חשובים מבלי להציף את התמונה ברעש.

Figure 2
Figure 2.

בדיקת השיטה

כדי לבחון האם העיצוב באמת מסייע, המחברים אימנו את המקודד-מפענח על אוסף תמונות גדול ובעל תכלית כללית ואז אימנו את מודול המיזוג על סצנות אינפרא-אדום–נראות בזוגות. הם בדקו את WMambaFuse בשלושה מדדי ציבור המכסים סצנות צבאיות, כבישים וסביבות יומיומיות, והשוו אותו עם תשע שיטות מיזוג מובילות, כולל אלה המבוססות על אוטואנקודרים קלאסיים, רשתות קונבולוציה, טרנספורמרים ומודלים בסגנון Mamba קודמים. על פני טווח רחב של מדדים — מידע כולל, ניגוד, חידוד קצוות ודמיון מבני למקורות — השיטה החדשה התאימה או עלתה על המתחרים בעקביות. דוגמאות חזותיות מראות קווי מתאר ברורים יותר, מטרות תרמיות בוהקות ומלאות יותר, ומרקמי רקע משומרים טוב יותר, אפילו במצבי לילה ותת-אור מאתגרים.

תמונות ממוזגות ברורות יותר למשימות בעולם האמיתי

במלים פשוטות, WMambaFuse לומדת מתי לסמוך על דפוסי חום ומתי לסמוך על פרטי נראה, והיא עושה זאת גם במישור התמונה וגם בשכבות התדר הנסתרות שמקודדות קצוות ומרקמים. התוצאה היא תמונה ממוזגת אחת שקל יותר לפרש לבני אדם ומהימנה יותר למשימות המשך כמו גילוי מטרות או מעקב. בעוד שהמחברים מציינים שתנאים קיצוניים, כגון ערפל כבד או גשם עז, עדיין מעמידים שאלות פתוחות, הניסויים שלהם מראים שעיצוב המרחב–תדר הזה, המונע על ידי מודלים מודרניים של מרחב מצבים, מהווה צעד עמיד קדימה עבור מכונות שצריכות לראות בבירור בחושך.

ציטוט: Wang, J., Si, Y., Chen, Y. et al. WMambaFuse: an infrared and visible image fusion network based on wavelet mamba. Sci Rep 16, 14113 (2026). https://doi.org/10.1038/s41598-026-44374-y

מילות מפתח: מיזוג אינפרא-אדום ונראה, הדמיית ראיית לילה, מיזוג תמונות מבוסס וויפלט, מודלי ראייה במרחב מצבים, ראייה ממוחשבת מולטימודלית