Clear Sky Science · he

מיזוג תמונות אינפרא-אדום ונראות עם מנגנון תשומת לב כפול ואובדן אינטראקציה אדפטיבי

2026-04-03 · חזרה לאינדקס

לראות יותר מאשר מצלמה אחת יכולה

תארו לעצמכם שאתם נוהגים בלילה ערפילי כאשר עיניכם ומצלמת תרמי תופסות כל אחד חלקים שונים של הסצנה. אחת מציגה חום בוהק מאנשים ומרכבים, והאחרת חושפת סימוני נתיב, מבנים ושלטים. המחקר הזה מסביר שיטה חדשה למיזוג שתי התצפיות לתמונה אחת וברורה יותר שיכולה לסייע לאנשים ולמכונות לראות טוב יותר בסביבות חוץ מורכבות.

Figure 1. מיזוג מבטי חום ומצלמות רגילות לסצנה ברורה יותר לשיפור הראות בחוץ.

למה שתי סוגי תמונות חשובות

מצלמות אור נראה תופסות את העולם בדומה לעינינו, עם פרטים חדים ומרקמים עשירים. מצלמות אינפרא-אדום תופסות חום, כך שצורות זוהרות מגלה מנועים חמים, אנשים או בעלי חיים גם בחושך, בערפל או בסינוור. כל תצוגה לבדה אינה שלמה. בתמונות נראות עלולות ללכת לאיבוד אובייקטים חשובים במזג אוויר גרוע או בתאורה נמוכה, בעוד שתמונות אינפרא-אדום לעתים מטושטשות וחסרות פרטים עדינים. מיזוגן לתמונה אחת ששומרת גם על מרקם חד וגם על אותות חום בולטים הוא בעל ערך למשימות כמו תצפית, חישה מרחוק ורכבים אוטונומיים.

אתגר מיזוג תצפיות שונות

במשך שנים חוקרים בנו תוכניות מחשב שלומדות איך למזג תמונות אינפרא-אדום ונראות. רבות מהשיטות המודרניות משתמשות בלמידה עמוקה, שבה המחשב קובע אילו תכונות לשמור ואיך לערבב אותן. רעיון פופולרי הוא תשומת לב, שמאפשרת לרשת להתמקד בחלקים החשובים בתמונה. אך מערכות מוקדמות התמקדו רק בכל תמונה בנפרד או ערבבו אותן ללא שליטה מספקת. המשמעות הייתה שפרטים חשובים מתמונה אחת יכולים לדחוק אותות ייחודיים מהשנייה, או שהתמונה הסופית תיראה משעממת ופחות מידע.

לתת תשומת לב בשתי כיוונים

המחברים מציעים מודל מיזוג חדש המבוסס על רעיון תשומת לב כפול. ראשית, הרשת בוחנת כל תמונה בנפרד כדי להבין את התבניות והמבנים שלה, כמו קצוות, מרקמים ואובייקטים חמים. לאחר מכן מבוצעת תשומת לב חוצתית, שבה תצפיות אינפרא-אדום ונראות מקיימות אינטראקציה ומנחות זו את זו, כך שלאזורים מתאימים ניתן לחלוק מידע מועיל. שלבים אלה מנוהלים בעזרת בלוק מודרני הנקרא Swin Transformer, שמחלק תמונות לפאצ'ים קטנים ובוחן כיצד אזורים מרוחקים קשורים זה לזה. לאחר חילוץ דו-שלבי זה, בלוק תשומת לב נוסף מערבב את התכונות המשולבות לייצוג יחיד, שהופך חזרה לתמונה.

Figure 2. ערבוב בשלבים של אזורי חום ופרטים כך שכל תמונה תתרום במקום שבו היא מועילה ביותר.

להניח לנתונים להחליט מי מוביל

רעיון מרכזי בעבודה זו הוא שהאיזון בין שתי המצלמות צריך להשתנות ממקום למקום בתמונה. באזורים מסוימים צורות מבוססות חום חשובות יותר, כמו אדם העומד על רקע עמוס. באזורים אחרים מרקם הנראה חשוב יותר, כגון סימוני דרך או קווי מבנה. המחברים מעצבים כלל אימון אדפטיבי שמודד עד כמה כל מצלמה פעילה חזותית בכל פאץ' קטן בתמונה, ואז משנה אוטומטית עד כמה אותו פאץ' משפיע על תהליך הלמידה. זה מדריך את הרשת להבליט את המקור המידע הרלוונטי מקומית, במקום לכפות משקל שווה בכל מקום.

כמה טובה השיטה החדשה

הצוות בוחן את השיטה שלהם על שתי מערכות סטנדרטיות של סצנות חיצוניות שמשלבות כבישים, כלי רכב, אנשים ורקעים מורכבים. הם משווים מול שבע שיטות מיזוג מובילות ממגוון משפחות של למידה עמוקה. הן בדיקה ויזואלית והן מספר מדדים מספריים מראים שהשיטה החדשה מספקת תמונות עם ניגודיות גבוהה יותר, קצוות חדים יותר ופרטים עשירים יותר בזמן שהיא שומרת על מטרות תרמיות מרכזיות. ניסויים נוספים שבהם חלקים מהמודל מוסרים או משונו מאשרים ששני רכיבי התשומת לב החוצתית וכלל האימון האדפטיבי ממלאים תפקיד מכריע בשיפורים.

מה זה אומר לראייה בעולם האמיתי

לקורא שאינו מומחה, המסקנה פשוטה. על ידי לימוד מחשב לא רק להסתכל על שתי מצלמות אלא לנהל את האופן שבו הן משפיעות זו על זו באופן זהיר ותלוי-מיקום, השיטה הזו מייצרת תמונות משולבות ברורות יותר מאשר שיטות קודמות. זה יכול להקל על אנשים ומערכות אוטומטיות לזהות אובייקטים חשובים בתנאים קשים, והרעיונות האלה עשויים לסייע גם לכלים עתידיים הממזגים סוגי חיישנים אחרים.

ציטוט: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

מילות מפתח: מיזוג תמונות, דימות אינפרא-אדום, ראייה ממוחשבת, רשתות תשומת לב, נהיגה אוטונומית