Clear Sky Science · he
S2SWCLIP: פרומפטים מותאמים סמנטית עם סינרגיה מרחבית-גלית לגילוי אנומליות ללא אימון
איתור פגמים זעירים בלי שיתוף נתונים רגישים
מפעלים ובתי חולים מודרניים מסתמכים יותר ויותר על מצלמות כדי לתפוס ליקויים ומחלות, אך איסוף ותיוג דוגמאות פגומות בכמות מספקת הוא קשה—ובתחום הרפואה לעתים מוגבל על ידי כללי פרטיות. מאמר זה מציג את S2SWCLIP, טכניקה שיכולה לזהות תבניות חריגות בתמונות, כמו סדקים במתכת או אזורים חשודים בסריקות, גם כאשר לא נחשפה מעולם לדוגמאות מהקו הייצור או מבית החולים הספציפי. היא עושה זאת על ידי שילוב שימוש מחושב בשפה עם דרך מתוחכמת לניתוח הצורות והמרקמים שבתוך התמונות.
מדוע קשה למצוא בעיות נדירות
גילוי אנומליות הוא המשימה להחליט אם תמונה, או אפילו פיקסל יחיד, היא נורמלית או פגומה. בקווי ייצור ובתמונות רפואיות, ליקויים אמיתיים נדירים ומגוונים למדי, ולכן מערכות מסורתיות מאומנות בעיקר על דוגמאות נורמליות ולומדות מה "נראה נכון". שיטות מצליחות רבות או משחזרות תמונות ומסמנות הבדלים, או בונות תיאור דחוס של המראה הנורמלי ומחפשות חריגים. גישות אלה עובדות היטב כאשר זמינות כמה דוגמאות מהסביבה היעד. אבל בסביבות רגישות לפרטיות או משתנות תדיר, ייתכן שלא ניתן לאמן מחדש למוצר או לאיבר חדש. שיטות "ללא אימון" חדשות מבוססות CLIP—מודל חזק שמקשר בין תמונות וטקסט—מציעות דרך לגלות אנומליות רק על ידי תיאור מילולי שלהן. עם זאת, גישות קיימות לעתים מסתמכות על פרומפטים טקסטואליים מעורפלים ותכונות תמונה גסות, מה שעלול לטשטש את הגבול בין תבניות נורמליות ולא-נורמליות.

חידוד השפה של נורמלי ושבור
S2SWCLIP מטפלת קודם כל בצד השפה. במקום להשתמש בביטוי גנרי בודד כמו "חפץ פגום", השיטה בונה שלוש משפחות פרומפטים. האחת כללית ולא תלויה באובייקט, המתארת פריט ללא שם כנורמלי או פגום. השנייה מנוגדת במפורש בין מצבים חיוביים ושליליים באמצעות מילים טעונות רגשית כמו "מושלם" לעומת "חמור", יחד עם מערכי מונחים המרמזים על תנאים ללא פגם או פגומים. המשפחה השלישית מזכירה סוגי פגם ספציפיים—כגון סדקים או שריטות—כדי להפוך את רעיון הנזק למוחשי יותר. משפטים שונים אלה עוברים דרך רכיב הטקסט של CLIP, ומנגנון מיזוג מיוחד משווה ומשלב את האותות הפנימיים שלהם. על ידי סינון רכיבים רעשיים והדגשת אלו בעלי קורלציה חזקה, המערכת מייצרת מושג עשיר ומובחן יותר של מה זה "נורמלי" ו"חריג" עוד לפני שנבחנת כל תמונה.
לראות גם פרטים וגם את התמונה הכוללת בתמונות
מבחינה ויזואלית, S2SWCLIP משנה את אופן שבו CLIP מסתכל על תמונות. גרסאות סטנדרטיות נוטות להעדיף רושם כללי רחב, שיכול לפספס קווים דקים של סדק או הצללה עדינה שמצביעה על מחלה בשלב מוקדם. כדי לטפל בכך, המחברים מוסיפים מודול מיזוג היררכי המערב מידע מרזולוציות שונות, ושומר גם על פרטים עדינים וגם על מבנים גדולים. לאחר מכן הם מיישמים טרנספורמציה גלית כפולה, כלי קלאסי מעיבוד אותות המפריד תמונה לרכיבי רקע חלקים ולקצוות או מרקמים חדים יותר. באמצעות שני סוגי גליות, השיטה קולטת הן וריאציות גלובליות עדינות והן שינויים מקומיים פתאומיים בבת אחת, ואז משלבת אותם למפות תכונה רגישות לתדר. סינרגיה זו של מרחב וגליות נותנת למודל מבט רגיש יותר על פגמים זעירים הבולטים במרקם או בתדר אך עלולים להיראות כמעט בלתי נראים לעין האנושית.

ליישר בין מה שאנחנו אומרים למה שאנחנו רואים
השלב הסופי הוא להתאים בין תכונות התמונה המועצמות האלה לפרומפטים הטקסטואליים המותאמים. עבור תמונות שלמות, S2SWCLIP מודדת עד כמה הייצוג של כל פרומפט מצטלב עם התיאור הגלובלי של התמונה. עבור מפות ברמת פיקסל, היא מציגה מדד דמיון מבוסס אנטרופיה שבוחן כמה מידע נושא כל אזור מקומי בהשוואה לתכונות הטקסט. אזורים שתכונותיהם הסטטיסטיות דומות לפרומפטים של אנומליה אך שונות מהפרומפטים הנורמליים מודגשים כחשודים. המודל מכוּן על סט מדידה תעשייתי יחיד ואז נבחן, ללא אימון חוזר, על 14 מאגרים מגוונים הכוללים חלקים מיוצרים, מרקמים ותמונות רפואיות. ברוב המבחנים הללו S2SWCLIP עולה על שיטות אפס-אימון קודמות הן במיון ברמת התמונה והן במיקום ברמת הפיקסל, תוך שמירה על זמן חישוב ומספר פרמטרים ניתנים לאימון צנועים.
מה זה אומר לבדיקה בעולם האמיתי
עבור קהל שאינו מומחה, המסר המרכזי הוא ש-S2SWCLIP מתקדמת מעבר לביטויי "האם זה שבור?" הפשוטים ולמבט הגס, ומשלבת שפה מעודנת עם מבט מיקרוסקופי על מבנה התמונה. על ידי חיזוק הניגוד בין תיאורים נורמליים ופגומים, ובפירוק תמונות לרכיבים מרובי קנה מידה ומבוססי תדר, השיטה מסמנת פגמים באופן אמין יותר בלי צורך בדוגמאות מכל סביבה חדשה. על אף שהיא עדיין עלולה להתקשות באנומליות עדינות במיוחד המשתלבות ברקעים מורכבים, המחברים מציעים כיווני המשך — כגון ניתוח מוקדם יותר מקומי וגאומטריות מתקדמות — שעשויים לצמצם פער זה. בסך הכל, S2SWCLIP מהווה צעד מבטיח לעבר מערכות בדיקה גמישות וידידותיות לפרטיות שיכולות להתאים לתעשיות והקשרים רפואיים חדשים עם מינימום נתונים נוספים.
ציטוט: Zhang, H., Wu, C., Lu, J. et al. S2SWCLIP: semantic-optimized prompts with spatial-wavelet synergy for zero-shot anomaly detection. Sci Rep 16, 13062 (2026). https://doi.org/10.1038/s41598-026-43044-3
מילות מפתח: גילוי אנומליות ללא אימון, מודלים ראייה-שפה, בדיקה תעשייתית, ניתוח תמונות רפואיות, תכונות תמונה בגליות