Clear Sky Science · he

טרנספורמר חזותי חדש מבוסס סופרפיקסלים לשיפור הפרשנות בסינון גלאוקומה

· חזרה לאינדקס

למה סריקות עיניים ומכונות חכמות חשובות

גלאוקומה היא מחלת עיניים שקטה שיכולה לגזול ראייה עוד לפני שאנשים שולטים בתסמינים. רופאים יכולים לזהות סימני אזהרה מוקדמים בתמונות צבע של אחורי העין, אך בדיקה מדוקדקת של כל תמונה גוזלת זמן ודורשת מומחיות. בינה מלאכותית (AI) יכולה לסייע, אך מערכות חזקות רבות מתנהגות כ"תיבות שחורות" ומספקות הבנה מועטה לגבי אופן קבלת ההחלטה. מחקר זה מציג גישת AI חדשה שמטרתה לשמור על דיוק גבוה תוך הקלה על הבנת נימוקיה עבור מומחי עיניים.

Figure 1
Figure 1.

ממרבצים מרובעים לאזורים טבעיים יותר

רוב מערכות ניתוח התמונה המודרניות המבוססות על טרנספורמרים חזותיים מחלקות תמונה לרצף של אריחים מרובעים זהים לפני עיבוד. זה עשוי לעבוד היטב לתמונות יומיומיות, אך מתעלם ממבני האנטומיה שבעין. הדיסק האופטי והשקע הפנימי, המכונה כוסית, בעלי קווי מתאר מעוקלים ולא סדירים, והכפייתם לתוך מרובעים קשיחים מערבבת פרטים חשובים עם לא חשובים. החוקרים משתמשים במקום זאת ב"סופרפיקסלים" — קבוצות של פיקסלים שכנים החולקים צבע או מרקם דומים — כדי לחתוך את תמונת הרשת האופטית לחתיכות שעוקבות אחר גבולות אנטומיים ממשיים. סופרפיקסלים אלה הופכים לאחר מכן ליחידות בסיסיות, או "אסימונים", שהטרנספורמר מנתח.

דרך חדשה להזנת תמונות לטרנספורמרים

המודל המוצע, שנקרא Superpixel‑based Vision Transformer (SpxViT), שומר על המנגנון הפנימי של טרנספורמר חזותי סטנדרטי כמעט ללא שינוי ומתמקד בעיצוב מחדש של החלק הקדמי. לפני שהתמונה מגיעה לטרנספורמר, אלגוריתם קיים (SLIC) מחלק אותה ל‑196 סופרפיקסלים, התואם בקירוב למספר האריחים במודל בסיסי נפוץ בשם ViT‑B/16. כל אזור לא סדיר מומר לתיאור מספרי בעל אורך קבוע כדי שיוכל להתייחס אליו כמו לאריח רגיל. נבדקו שתי וריאציות: אחת המשתמשת בהגדרה קבועה למתן עדיפות לצורות טבעיות יותר (SpxViT_fix) ואחרת שמותאמת לכל תמונה כדי להפיק תמיד בדיוק 196 אזורים (SpxViT_var). מלבד שלב טוקניזציה זה, שכבות הטרנספורמר ותהליך האימון זהים לאלו שבמודל הקלאסי, מה שמאפשר השוואה הוגנת.

בדיקה על תמונות עין אמיתיות

הצוות העריך את השיטה שלהם על 739 צילומים רטינליים מתוך מאגר ציבורי ואוסף בית‑חולים, כאשר כל תמונה מתויגת על ידי מומחי גלאוקומה. המומחים גם סימנו את גבולות הדיסק והכוס, ויצרו מפות מפורטות של המבנים החשובים קלינית. כמה מערכות מבוססות טרנספורמר אומנו מאפס והושוו: ה‑ViT‑B/16 הסטנדרטי עם אריחים מרובעים, עיצוב מבוסס‑סופרפיקסלים אחר מעבודות קודמות, ושתי גרסאות SpxViT. הביצועים נמדדו באמצעות מדדי אבחון מקובלים המאזנים בין יכולת הגילוי של עיניים חולות לבין דחיית עיניים בריאות. ה‑ViT‑B/16 הקלאסי השיג את הדיוק הכולל הטוב ביותר, אך SpxViT_var היה קרוב מאוד, פגר בפחות מנקודה אחוזית.

Figure 2
Figure 2.

להתאמת תשומת הלב של המכונה לעין הרופא

דיוק לבדו אינו מספיק לשימוש קליני; רופאים גם צריכים לדעת אילו חלקים בתמונה השפיעו על החלטת המודל. החוקרים השתמשו בטכניקת ניתוח הנקראת attention rollout, המעקבת אחר כמה כל אסימון תורם לניבוי הסופי והופכת זאת למפת חום על פני התמונה המקורית. מאחר שאסימוני SpxViT עוקבים אחר קווי המתאר של הדיסק והכוס, מפות תשומת הלב שלו מתיישרות באופן טבעי עם אותם אזורים ונמנעות מדפוס רשת מגושם כמו בטרנספורמרים סטנדרטיים. על‑ידי הצגת מפות החום על גבי הסגמנטים המומחים, הצוות חישב כמה תשומת לב הופנתה לאזור הכוס, לדיסק או לרקע. המודלים המבוססים על סופרפיקסלים, ובמיוחד SpxViT_var, ריכזו את מרבית תשומת לבם בדיסק ובכוס תוך התעלמות למעט משאר הרשתית. מומחה גלאוקומה גם דירג דוגמיות של מפות בעין ומצא שמפות SpxViT_fix היו הקלות ביותר לפרשן, עם הדגשה ברורה של המבנים המשמשים באבחון בפועל.

איזון בין אמון וביצועים ב‑AI לרפואת עיניים

המחקר מראה כי שינוי האופן שבו תמונות מחולקות לחתיכות יכול להפוך מערכות AI לסינון גלאוקומה לשקופות יותר מבלי לוותר באופן מהותי על דיוק. בעוד הטרנספורמר הקלאסי מוביל במספרים טהורים, SpxViT מייצר הסברים שמתאימים טוב יותר להיגיון קליני על ידי התמקדות בדיסק האופטי ובכוס במקום בתבניות פזורות או בצורת רשת. עבור השימוש היומיומי, פיצוי זה עשוי להיות משתלם: מודל שרופאים יכולים להבין ולבחון סביר יותר שיושם ויישולב בבטחה בתכניות סינון. המחברים טוענים שעיצובים דומים מבוססי‑סופרפיקסלים יכולים לסייע להבאת AI ניתנת לפרשנות למשימות דימות רפואיות אחרות שבהן לדעת איפה המודל מסתכל חשוב לא פחות מאשר האם הוא צודק.

ציטוט: Hernández, J., Alayón, S., Sigut, J.F. et al. A novel superpixel based Vision Transformer for improving interpretability in glaucoma screening. Sci Rep 16, 10879 (2026). https://doi.org/10.1038/s41598-026-39730-x

מילות מפתח: סינון גלאוקומה, דימות רטינלי, טרנספורמרים חזותיים, בינה מלאכותית ניתנת להסבר, סופרפיקסלים