Clear Sky Science · he

רשת מיזוג תכונות רב-רמה בהנחיית אנטרופיה לשחזור תמונות מבוסס-תוכן בדיוק גבוה

· חזרה לאינדקס

למצוא את התמונה הנכונה, במהירות

כל יום אנו יוצרים ומאחסנים מספרים מדהימים של תמונות — מסריקות רפואיות ותמונות לוויין ועד הקלטות אבטחה וצילומים אישיים. תיוג וחיפוש ידניים של תמונות אלה איטיים ולא תמיד מהימנים. מאמר זה מציג דרך חכמה יותר עבור מחשבים "להסתכל" על תמונות ישירות ולמצוא את אלה שאנו רוצים בדיוק גבוה, גם באוספים גדולים ומגוונים מאוד.

מדוע הסתכלות על הפיקסלים אינה מספיקה

חיפוש תמונות מסורתי מסתמך לעתים קרובות על שמות קבצים או תגיות פשוטות כמו "חתול" או "מבנה". אך אנשים לא תמיד מתייקים תמונות בקפדנות, והמחשבים רואים רק פיקסלים גולמיים, לא את המשמעות העשירה שבני אדם מבינים. מערכות מבוססות-תוכן מוקדמות ניסו לגשר על הפער הזה באמצעות רמזים חזותיים פשוטים כמו צבע, מרקם וצורה. רמזים אלה עזרו, אך לרוב שולבו ברמות חשיבות קבועות. כלומר, המערכת התייחסה לחלק מהתכונות כחשובות יותר באופן תמידי, גם אם חיפוש מסוים היה זקוק לתמהיל שונה. כתוצאה מכך הדיוק נפגע כאשר סוגי תמונות, תנאי תאורה או סצנות השתנו.

מיזוג דרכים שונות של ראייה

המחברים מציעים מסגרת אחזור חדשה הממזגת שני סוגי ראיות חזותיות עיקריים. ראשית, היא משתמשת במודלים של למידה עמוקה — רשתות ידועות כמו ResNet50 ו-VGG16 — שלמדו לזהות דפוסים מורכבים בתמונות. שנית, היא מוסיפה תיאורים "מעשה ידי אדם" קלאסיים שתופסים פיזור צבעים, קצוות ומרקמים בצורה מבוקרת יותר. במקום להניח מראש עד כמה כל סוג תכונה חשוב, המערכת מאפשרת לנתונים להכריע. היא מודדת כמה אינפורמטיבית כל תכונה עבור חיפוש נתון ומתאימה את השפעתן בזמן אמת. התמהיל הרב-רמה הזה של רמזים ברמה גבוהה ונמוכה עוזר למחשב לבנות הבנה עשירה וגמישה יותר של תוכן התמונה.

Figure 1
Figure 1.

להשאיר למידע ולאמון לקבוע את המשקלים

בלב השיטה ניצבת הרעיון של אנטרופיה, מדד לאי-וודאות או לפיזור המידע. תכונות שמפרידות בעקביות בין תמונות רלוונטיות ללא רלוונטיות מציגות אנטרופיה נמוכה וטופלות כיותר "מבדילות". לשאילתה חדשה, המערכת מעריכה כיצד כל תכונה מתנהגת על פני מסד הנתונים ומקצה לה ציון חשיבות התחלתי. לאחר מכן היא בוחנת עד כמה תוצאות החיפוש של כל תכונה אמינות — האם ההתאמות העליונות אכן דומות לשאילתה — ובונה מושג של "אמון" לכל סוג רמז. ציוני האמון האלה מוזנים לתהליך בסגנון PageRank, בדומה לאופן שבו מנועי חיפוש ראשוניים קבעו אילו דפים חשובים יותר, כדי לחדד את משקלי התכונות באמצעות רשת העברת הסתברויות.

ממשק משקלים חכם לדירוגים טובים יותר

ברגע שהמערכת למדלה כמה לסמוך על כל תכונה עבור השאילתה הנוכחית, היא מחברת את ציוני הדמיון שלהן למדד כולל واحد עבור כל תמונה במסד הנתונים. התמונות מדורגות לפי ציון כולל זה, כך שהן שמתהוות בהתאמות המשמעותיות ביותר עולות לראש. המחברים בודקים את הגישה שלהם על מאגרי תמונות סטנדרטיים ומשווים אותה למספר שיטות קיימות. הם מדווחים על עליות של עד 8.6% במדד ה-mean average precision ועל שיפורים בולטים באיכות עשרת התוצאות העליונות, הן בדיוק והן ברלוונטיות הסידורית. בדיקות סטטיסטיות מראות שסביר להניח שהשיפורים הללו אינם מקריים, מה שמעיד שהמערכת גם מדויקת וגם יציבה בסוגים רבים של תמונות.

Figure 2
Figure 2.

מה זה אומר לחיפוש תמונות יומיומי

במילים פשוטות, מחקר זה מראה כיצד לבנות מנועי חיפוש תמונות שנמכרים לניואנסים של כל שאילתה במקום להסתמך על חוקים קשיחים. על ידי מתן תפקיד לתוכן המידע ולאמון שנצבר לגבי אילו רמזים חזותיים חשובים ביותר, המערכת יכולה למצוא את התמונות הנכונות לעתים קרובות יותר — בין אם מדובר בזיהוי טביעת אצבע במסד נתונים פלילי עצום, במציאת מבנה ספציפי בתמונות לוויין, או בהצגת הסריקה הרפואית הנכונה. המחברים מודים שהשיטה כבדה חישובית יותר ממערכות פשוטות, אך טוענים שמהימנותה ודיוקה הגבוהים הופכים אותה מתאימה לאוספי תמונות גדולים ובעלי חשיבות קריטית שבהם מציאת התמונה הנכונה היא בעלת חשיבות עליונה.

ציטוט: Lavanya, M., Vennira Selvi, G., Gopi, R. et al. Entropy guided multi level feature fusion network for high precision content based image retrieval. Sci Rep 16, 7449 (2026). https://doi.org/10.1038/s41598-026-38699-x

מילות מפתח: שחזור תמונות מבוסס-תוכן, למידה עמוקה, מיזוג תכונות, חיפוש תמונות, משקלול אנטרופיה