Clear Sky Science · he
מיזוג תמונות אינפרא-אדום וראות באמצעות שיפור חזותי וקישור סמנטי
ראייה חדה יותר ממצלמות יום ולילה
רכבים מודרניים, רחפנים ומערכות אבטחה נושאים לעתים קרובות שתי עיניים: מצלמה רגילה שרואה צבע ומרקם, ומצלמת אינפרא-אדום שרואה חום. לכל אחת מהם יש יתרונות וחסרונות, ושילובן לתמונה ברורה אחת הוא מאתגר מה שנדמה. מאמר זה מציג שיטה חדשה למיזוג שתי התצפיות לתמונה אחת שאינה רק נוחה לצפייה אלא גם קלה יותר להבנה עבור תוכנות מחשב.

למה שתי עיניים טובות יותר מאחת
מצלמות באור נראה מקליטות פרטים חדים כמו סימוני כביש, קצוות בניינים ובגדים, אך מתקשות בלילה, בערפל או כאשר עצמים נבלעים ברקע. מצלמות אינפרא-אדום עושות את ההפך: הן מדגישות עצמים חמים כגון אנשים וכלי רכב גם בחושך, אך תמונתן מטושטשת וחסרה פרטים דקים. מיזוג שתי התצפיות לתמונה של “הטוב משני העולמות” יכול לסייע במשימות כמו זיהוי הולכי רגל במערכות סיוע לנהג, במעקב ובמשימות חיפוש והצלה. עם זאת, שיטות מיזוג רבות מתמקדות רק בתכונות שטח — נקודות בוהקות מאינפרא-אדום ומרקמים מתמונות הנראות — ומתעלמות ממשמעות העמוקה יותר של הסצנה שחיונית למכונות חכמות.
דרך חכמה יותר לערבב תמונות
המחברים מציעים מסגרת למידה עמוקה שטורחת לראות במיזוג יותר מהנחת שכבה פשוטה. תחילה שלב שיפור מיוחד מבהיר ומאזן את התמונה הנראית, במיוחד בסצנות של תאורה חלשה, כך שפרטים חשובים לא יאבדו עוד לפני תחילת המיזוג. לאחר מכן רשת בעלת מסלולים כפולים מעבדת את כניסות האינפרא-אדום והנראות במקביל. מסלול אחד מתמקד בדפוסים מקומיים כמו קצוות ומרקמים, בעוד השני בוחן את ההקשר הרחב של הסצנה. על ידי שילוב מסלולים אלה, המערכת מייצרת תיאור פנימי עשיר יותר של מה שמתרחש בתמונות.
ללמד את הרשת למה לשים לב
שליפה של הרבה תכונות בלבד אינה מספיקה; הרשת צריכה ללמוד אילו תכונות חשובות. מודול "ערוץ–מרחב" מסייע לדגם להדגיש אזורים וסוגי מידע קריטיים, כגון הולכי רגל או פנסי חזית בוהקים, תוך דיכוי רעשי רקע פחות שימושיים. בנוסף לכך, מנגנון תשומת לב דו-מִסִגְנוּעִי (bimodal interactive attention) מעודד את זרמי האינפרא-אדום והנראות לתקשר זה עם זה. הוא לומד כיצד חתימות חום ומרקמים ויזואליים מתאמים לאורך הסצנה, ותופס מושגים ברמה גבוהה כמו "הכתם הבהיר הזה באינפרא-אדום מתאים לאדם הזה בתמונה הנראית." קישור סמנטי זה עוזר לתמונה הממוּזגת להישאר עקבית לוגית במקום להיות רק טשטוש חזותי.

בדיקת השיטה במבחן
כדי לבדוק שהתמונות הממוּזגות אינן רק נעימות לעין אלא גם ריאליסטיות, המחברים מוסיפים רשת מבדילה בדומה לאלה שבشبكات GAN. רשת נוספת זו לומדת להבחין בין תמונות נראות אמיתיות לבין תמונות ממוּזגות, מה שדוחף את תהליך המיזוג לייצר תוצאות שנראות טבעיות הן לבני אדם והן למכונות. השיטה הוכשרה ונבחנה על שלוש אוספים מאתגרים של זוגות תמונות אינפרא-אדום–נראות, לכסות כבישים ביום ובלילה וסצנות בסגנון צבאי. במדדי איכות סטנדרטיים שונים, הגישה החדשה בדרך כלל מתבלטת על פני עשר שיטות מיזוג קיימות, ומייצרת תמונות עם קצוות חדים יותר, ניגוד טוב יותר ותוכן מידע מלמד יותר.
תמונות טובות יותר למכונות בטוחות יותר
מעבר לאיכות החזותית, המחברים שואלים שאלה מעשית: האם תמונות ממוּזגות אלה מסייעות למחשבים לקבל החלטות טובות יותר? באמצעות מערכת זיהוי עצמים פופולרית לאיתור הולכי רגל הם מראים שהתמונות הממוּזגות שלהם משפרות את דיוק הזיהוי בהשוואה לתמונות מחיישן יחיד ולשיטות מיזוג מוקדמות. במונחים יומיומיים, הטכניקה יוצרת תמונות שקל יותר לפרש הן על ידי בני אדם והן על ידי אלגוריתמים, במיוחד בתנאים קשים כמו נהיגה בלילה. בעוד שהמערכת עדיין צריכה כוונון לשימוש בזמן אמת במכשירים בעלי משאבים מוגבלים, היא מהווה צעד מבטיח לעבר ראייה אמינה ובטוחה יותר ברכבים אוטומטיים, במעקב ובטכנולוגיות אחרות שצריכות לראות בצורה ברורה כשהדבר חשוב ביותר.
ציטוט: Yang, Y., Li, Y., Li, J. et al. Infrared and visible image fusion via visual enhancement and semantic coupling. Sci Rep 16, 5666 (2026). https://doi.org/10.1038/s41598-026-35763-4
מילות מפתח: מיזוג תמונות, تصوير אינפרא-אדום, ראייה בתאורה חלשה, למידה עמוקה, זיהוי עצמים