Clear Sky Science · he

מחקר על אלגוריתם גילוי חפצים מולטי-מודאלי מבוסס מיזוג אינפרה-אדום–נראה, מבוסס צוואר בקבוק של מידע בין-מודאלי והטרנספורמציית מינימום-עמימות

· חזרה לאינדקס

לראות בבירור בחושך

מכוניות מודרניות, מצלמות רחוב ורובוטי ביטחון נדרשים יותר ויותר לזהות אנשים וחפצים בגשם, בערפל ובחושך מוחלט. מצלמות אור נראה — בדומה לעינינו — מתקשות כשהסצנה חשוכה או מלאה בהבהקים, בעוד מצלמות אינפרא-אדום יכולות לקלוט חום אך לעתים מפספסות פרטים. המאמר מציג שיטה חדשה למיזוג תמונות נראות ואינפרא-אדום כך שמכונות יוכלו לזהות הולכי רגל באופן אמין יותר בתנאים קשים, עם פחות אזעקות שווא ומטרות שנמנעות מזיהוי.

Figure 1
Figure 1.

מדוע שתי דרכי ראייה טובות יותר מאחת

מצלמות נראות לוכדות מרקמים עשירים, צבעים ופרטים עדיפים ביום, אך הביצוע שלהן ירד חזק בלילה או בתאורה קשה. מצלמות אינפרא-אדום, לעומת זאת, רואות חום, כך שאנשים בולטים גם בחושך, בערפל או בהארת נגד. עם זאת, תמונות אינפרא-אדום לעתים מטושטשות וחסרות קצוות חדים. מערכות רבות קיימות פשוט מצטברות את שני סוגי התמונות יחד או משתמשות במנגנוני תשומת לב שמחליטים פיקסל-אחרי-פיקסל איזו מצלמה יותר אמינה. למרות ששיטות אלה מסייעות, הן עדיין נושאות הרבה מידע כפול או סותר, והתוצאה הממוזגת עלולה לבלבל את רשת הגילוי, במיוחד כשאור משתנה פתאום או שהאובייקטים חלקית מוסתרים.

לסנן רעש, לשמור על העיקר

המחברים מציעים מסגרת גילוי חדשה שמתמקדת במה שיש במשותף לשתי המצלמות ומפטרת את מה שלא דרוש. בליבה נמצא צוואר בקבוק של מידע בין-מודאלי, מודול שמכוון לדחוס את הנתונים המשותפים של נראה–אינפרא דרך "ערוץ" צר ואז לשחזר את מה ששתי הזוויות מסכימות עליו. בתהליך זה הרשת לומדת לשמור רק את התבניות שעוזרות באמת לזהות חפצים, תוך השלכת אותות ותקלות ייחודיות למצלמה. היא מפלחת בנפרד את מה שמיוחד לתמונות נראות ומה שמיוחד לתמונות אינפרא-אדום, ואז משחזרת אותם בצורה מבוקרת כך שחוזקות כל מצלמה נשמרות בלי להציף את המבט המשותף.

Figure 2
Figure 2.

גזירת אותות מיותרים למיקוד חד יותר

כדי לנקות עוד יותר את המידע, המסגרת מציגה מודול של טרנספורמציית מינימום-עמימות. רכיב זה מתייחס לנתונים הממוזגים כמו אוסף של ערוצים ואזורי תמונה, ומסווה אוטומטית את אלו שנראים לא יציבים, בעלי פרטים מועטים או נשלטים על ידי ארטיפקטים תאורתיים. הוא גם משתמש במגבלות מתמטיות כדי לאלץ מבנה שימושי ויתר העמימות לכיוונים שונים במרחב הפנימי שלו, מה שמקל על הרשת להתעלם מתבניות שלא מסייעות בזיהוי. התוצאה הסופית היא ייצוג קומפקטי ודליל שמדגיש גבולות חפצים ברורים וצורות עקביות — דבר חשוב במיוחד לזיהוי הולכי רגל בלילה או בסצנות עירוניות עמוסות.

העמסה לשיפוט

חוקרי העריכו את הגישה שלהם על שני מאגרי נתונים נפוצים של זוגות תמונות נראה ואינפרא-אדום, KAIST ו-LLVIP, הכוללים רחובות צפופים בתנאי אור רגילים ותאורה חלשה. שיטתם בנויה על גלאי מודרני מבוסס טרנספורמר ומאומנת בשני שלבים: תחילה כל ענף מצלמה מתייצב בנפרד; לאחר מכן המיזוג מעודן כך שהשניים יעבדו יחד בצורה חלקה. בשני מאגרי הנתונים המסגרת החדשה עולה על שיטות מובילות שמתבססות רק על נראה, רק על אינפרא-אדום או על מיזוג, במיוחד במדדי לוקליזציה קפדניים שדורשים תיבות חיצוניות מדויקות מאוד. היא גם נשארת אמינה יותר כאשר התמונות מושחתות באופן מלאכותי ברעש, שינויים חדים בבהירות או החסמות סינתטיות שחוסמות חלקים מהולכי הרגל, מה שמראה שהדגם חסין להפרעות מהעולם האמיתי.

מה משמעות הדבר למכונות בטוחות יותר

במילים פשוטות, עבודה זו מלמדת מערכות גילוי להקשיב לשתי המצלמות אך לא לאפשר להן להעלים זו את זו. על ידי דחיסה ואירגון מחדש של המידע מתמונות נראות ואינפרא-אדום, השיטה המוצעת שומרת על הרמזים המשותפים והמשמעותיים וחותכת הרבה מהעמימות והרעשים. זה מוביל לזיהוי ברור יותר של אנשים בסצנות קשות, מרחובות חלשים בתאורה ועד רקעים עמוסי חפצים. המחברים מציעים כי העקרונות הללו יכולים להיות מורחבים לווידאו, למעקב רב-אובייקטי ואפילו למערכות עתידיות שמשלבות תמונות עם שפה, וכך לסייע למכונות לראות — ולהבין — את העולם באופן אמין יותר בכל סוגי התאורה.

ציטוט: Tan, W., Geng, B. & Bai, X. A study on infrared-visible fusion multimodal object detection algorithm based on cross-modal information bottleneck and minimum redundancy transformation. Sci Rep 16, 12991 (2026). https://doi.org/10.1038/s41598-026-35339-2

מילות מפתח: מיזוג אינפרא-אדום-נראה, גילוי חפצים מולטי-מודאלי, גילוי הולכי רגל, דימות בתאורה חלשה, חוסן מיזוג חיישנים