Clear Sky Science · he

מערכת נתוני fMRI ב-7T של תמונות סינתטיות למידול מחוץ להתפלגות בראייה

· חזרה לאינדקס

מדוע זה חשוב להבנת הראייה וה-AI

העיניים שלנו קולטות מגוון רחב של תמונות מדי יום, מיערות ופנים ועד שלטי רחוב ורעשי מסך. עם זאת, רוב המחקרים על המוח ובינה מלאכותית מבוססים על פרוסה צרה של העולם החזותי הזה: צילומים של סצנות טבעיות. מאמר זה מציג סוג חדש של מערכת נתונים מוחית שבמכוון יוצאת מאזור הנוחות הזה, באמצעות תמונות סינתטיות שעוצבו בקפידה כדי לבחון בחומרה הן את התיאוריות שלנו על הראייה האנושית והן את דגמי ה-AI המושפעים מהן.

בניית ספסל בדיקה חזותי חדש

המחברים מרחיבים את מערך הנתונים המשפיע Natural Scenes Dataset (NSD), שהקליט פעילות מוחית ברזולוציה על־גבוהה ב-7 טסלה בזמן שאנשים צפו בעשרות אלפי צילומים. מערך הנתונים המקורי כבר הניע חלק מהדגמים המדויקים ביותר של תגובת הקורטקס הוויזואלי לתמונות. אבל מאחר שכל אותן תמונות הן צילומים די רגילים, קשה לדעת האם מודל שעובד היטב על ה-NSD אכן לוכד עקרונות כלליים של הראייה או שספציפית התאים לתזונה זו של תמונות. כדי להתמודד עם בעיה זו, הצוות סרק שוב את אותם שמונה מתנדבים, הפעם בהצגת 284 תמונות “סינתטיות” שמכוונות במפורש לצאת מחוץ לעולם הצילומים המקובל.

Figure 1
Figure 1.

תמונות מוזרות, תגובות מוח אמינות

התמונות הסינתטיות מתחלקות לשמונה משפחות: סוגים שונים של רעש חזותי, סצנות טבעיות פשוטות והווריאציות המשנות שלהן (למשל הפיכות מעלה-מטה או רישומים בקווים), סצנות עם קונטרסט מופחת או פאזה מבולגנת, מילים יחידות הממוקמות במיקומים שונים, סריגים ספירליים הבודקים רגישות לתבניות עדינות, וטלאי רעש בצבעים בולטים. בעוד שהנבדקים התמקדו בנקודה מרצדת זעירה או ביצעו משימת השוואת תמונות פשוטה, החוקרים מדדו פעילות מוחית כל 1.6 שניות. הם מראים שלרווחים המוזרים האלו עדיין יש אותות חזקים ומהימנים, בייחוד באזורים הוויזואליים המוקדמים שמגיבים לתכונות בסיסיות כמו קצוות, קונטרסט וצבע. דפוסי פעילות ברחבי הקורטקס תואמים להעדפות ידועות של אזורים מיוחדים, כמו אזור בררני למילים שמגיב חזק למילים הממוקמות במרכז ואזור בררני לסצנות שמגיב חזק לתמונות של סביבות.

הוכחה שהנתונים באמת "מחוץ להתפלגות"

כדי שמערך נתונים חדש זה יאתגר דגמים, תגובות המוח בו צריכות להיות שונות באמת מאלו שמעוררות צילומים טבעיים. המחברים מדחסים דפוסי פעילות הן מה-NSD המקורי והן מהישיבה הסינתטית למפה דו‑ממדית המשקפת עד כמה התגובות דומות בין תמונות. במרחב הזה, תגובות לתמונות סינתטיות מתאספות בקבוצות נפרדות מתגובות לצילומים טבעיים, אפילו כאשר מתחשבים בהבדלים בין מושבי הסריקה. יתר על כן, התמונות הסינתטיות מתקבצות באופן טבעי לפי סוגן החזותי—רעש עם רעש, סריגים עם סריגים וכדומה—מראה שהמוח מארגן גירויים אלה לפי המבנה הבסיסי שלהם ולא רק לפי המראה החיצוני.

Figure 2
Figure 2.

בחינה קשה יותר של המוח ומודלי ה-AI

עם מערך נתונים "מחוץ להתפלגות" זה ביד, הצוות מאמן מודלים קידוד סטנדרטיים: כלים מתמטיים שמנבאים תגובות מוחיות מתוך תכונות תמונה המופקות על ידי רשתות עצביות עמוקות. דגמים שאומנו אך ורק על הצילומים הטבעיים מתפקדים היטב כשהם נבחנים על צילומים דומים, אבל דיוקם צונח במידה ניכרת כשמנבאים תגובות לתמונות הסינתטיות. הצניחה הזו אינה תוצאה של נתונים רועשים—התגובות הסינתטיות בפועל נקיות מאוד—אלא כישלונות אמתיים של המודלים. באופן קריטי, השוואת ארכיטקטורות שונות של רשתות עצביות בתנאים המחמירים האלה חושפת הבדלים שלעיתים כמעט אינם ניכרים בבדיקות בתוך ההתפלגות. למשל, ויז'ן טרנספורמר מודרני ורשת עצמית‑ממולצת (self-supervised) שניהם גוברים על רשתות קונבולוציה קלאסיות מול התמונות הסינתטיות, מה שמעיד על כך שאופן האימון של מודל מעצב במידה רבה את העמידות שלו.

כמה רחוק מדימויים מוכרים יכולים דגמים להגיע?

המחברים הולכים רחוק יותר ומתייחסים ל"מרחק" מהנתוני האימון כרצף, לא כתג כן/לא. הם מודדים עד כמה תגובת המוח לכל תמונה רחוקה מענן התגובות לסצנות הטבעיות. ככל שהתמונה הסינתטית רחוקה יותר במרחב הזה, כך המודלים נוטים להישג גרוע יותר ופחות מדויק להשתמש בהם כדי לזהות איזו תמונה אדם ראה על סמך פעילות מוחית בלבד. הם גם מראים שאפילו בתוך עולם הצילומים הרגיל, סטי בדיקה שנבחרו בחוכמה יכולים להתנהג כ"מעט מחוץ להתפלגות": דגמים עובדים הכי טוב על תמונות שנלקחו מאותו אשכול כמו סט האימון שלהם, פחות טוב על סצנות טבעיות מרוחקות, והכי גרוע על הגירויים הסינתטיים. תמונה מדורגת זו הופכת את מערך הנתונים החדש לכלי לבחינת אילו סוגי מבנים חזותיים דגמים עכשוויים מפספסים בדיוק.

מה זה אומר למחקר המוח ו-AI העתידי

לעיני הציבור הרחב, המסר המרכזי הוא שביצועים חזקים על תמונות מוכרות אינם מבטיחים שמודל AI בהשראת המוח באמת לוכד את אופן הראייה שלנו. על ידי שחרור NSD-synthetic לצד ה-NSD המקורי, המחברים מספקים "מסלול מבחן" ציבורי לדגמי ראייה: דרך לראות היכן הם נשברים כשהתמונות הופכות ליותר מופשטות, צבעוניות או פחות טבעיות. מכיוון שמערך הנתונים זמין בחופשיות ומשולב היטב במשאב קיים ונפוץ, סביר שהוא יהפוך לקריטריון סטנדרטי לבחינה ושיפור של תיאוריות הראייה האנושית והרשתות המלאכותיות השואפות לחקותה.

ציטוט: Gifford, A.T., Cichy, R.M., Naselaris, T. et al. A 7T fMRI dataset of synthetic images for out-of-distribution modeling of vision. Nat Commun 17, 1589 (2026). https://doi.org/10.1038/s41467-026-69345-9

מילות מפתח: קורטקס חזותי, מערכת נתוני fMRI, תמונות סינתטיות, מחוץ להתפלגות, רשתות עצביות עמוקות