Clear Sky Science · he

RAID-Dataset: תגובות אנושיות לעיוותים אפריניים של תמונה ולרעש גאוסיאני

2026-01-15 · חזרה לאינדקס

מדוע שינויים קטנים בתמונה חשובים לעיניים שלכם

כל יום, העיניים שלכם מתמודדות בקלות עם תמונות שמוטות, ממוקדות או מזומזמות, מוסטות או מעט גרעיניות — חשבו על צילום נושא בתנועה בסמארטפון או גלילה בתמונות מעט מטושטשות ברשתות החברתיות. אך כיצד, בפועל, אנשים מבחינים בשינויים אלה, והאם ניתן ללמד מחשבים לשפוט איכות תמונה כפי שאנו עושים זאת? מאמר זה מציג מערך נתונים חדש הנקרא RAID, שמודד במדויק כיצד צופים אנושיים מגיבים לעיוותי תמונה פשוטים אך נפוצים, ומייצר גשר בין חוויית הראייה היומיומית לאלגוריתמים שמניעים מצלמות, שירותי סטרימינג ובינה מלאכותית.

שינויים נפוצים בתמונה נבדקים

החוקרים התמקדו בארבעה שינויים בסיסיים שמתרחשים ללא הרף בעולם האמיתי ובתמונות דיגיטליות: סיבוב (הטיית התמונה), תזוזה (החלקת התמונה הצידה), שינוי קנה מידה (הגדלה או הקטנה) והוספת גרגירים — רעש גאוסיאני. בניגוד למאגרי איכות תמונה רבים שמדגישים כשלים דחיסה או תקלות דיגיטליות, הטרנספורמציות האלה מדמות מה שקורה כשאתה מזיז את הראש, מסיט את המבט, או כשאובייקטים נעים ותנאי התאורה משתנים. באמצעות 24 צילומי צבע טבעיים מתוך אוסף תמונות קודאק ידוע, הקבוצה יצרה תשע דרגות גוברות לכל עיוות, בנוסף למקורית, לסך של 888 תמונות.

כיצד אנשים השוו הבדלים בתמונות

כדי לגלות עד כמה השינויים הללו ניתנים לשים לב באמת, 210 מתנדבים הגיעו למעבדה מבוקרת, ישבו מול מסכים מכוילים והשתתפו ביותר מ-40,000 ניסויים. בכל ניסוי הם ראו שתי זוגות של תמונות על המסך ונדרשו לענות על שאלה פשוטה: איזה זוג נראה שונה יותר ביניהם, השמאלי או הימני? שיטה זו, המוכרת במדעי הראייה כסקאלת הבדלים עם סבירוּת מרבית (Maximum Likelihood Difference Scaling), אפשרה לחוקרים להפוך בחירות רבות כאלה לסקלה „תפיסתית” חלקה עבור כל עיוות. כל נקודה על הסקאלה מייצגת כמה חזק מרגיש רמת העיוות עבור הצופה הממוצע, החל מקושי לזיהוי ועד לבולט בבהירות.

מדידת הזמן שבו המוח מגיב

בזמן שהמשתתפים קיבלו החלטותיהם, הניסוי גם הקליט כמה זמן לקח להם להגיב. זמני התגובה הללו חשפו דפוס קלאסי שנצפה בתחומים אחרים של תפיסה: כאשר ההבדל בין התמונות היה מאוד קטן או גדול מאוד, אנשים הגיבו יחסית מהר, אך בקושי בינוני הם האטו. ככל שהעיוותים התחזקו, המערכת הוויזואלית נדרשה פחות זמן כדי להחליט איזה זוג שונה יותר. התנהגות זו מתיישרת עם כלל ידוע בפסיכולוגיה, חוק פירון, הקושר אותות חושים חזקים לתגובות מהירות ותומך ברעיון שהמערך נתונים תופס תכונות אמיתיות של הראייה האנושית ולא רעש אקראי בהחלטות האנשים.

בדיקה מול ציוני איכות קיימים

כדי להפוך את הנתונים החדשים לשימושיים למהנדסים ולמדענים שכבר נסמכים על מדדי איכות תמונה מבוססים, המחברים השוו את המדידות שלהם לתמונות רעשניות עם ציונים ממאגר פופולרי בשם TID2013, שבו אנשים דירגו את איכות התמונה בסולם "ציון דעה" טיפוסי. הם מצאו קשר חזק, כמעט בקו ישר: עיוותים שצופי RAID העריכו כבולטים יותר נטו לקבל ציוני איכות נמוכים יותר ב-TID2013. הקשר הזה איפשר לצוות לגזור נוסחה פשוטה להמרת ערכי הסקאלה התפיסתית שלהם לציוני דעה תקניים, מה שהופך קל לשלב את RAID עם מאגרי נתונים ישנים ולחברו לצינורות הערכה קיימים.

מדוע זה חשוב לראייה ולבינה מלאכותית

מעבר להתאמה לעבודות קודמות, מערך הנתונים החדש מדגיש מקרים שבהם המדידות המדודות שלו עולות על ציוני הדעה המסורתיים. על ידי חיפוש מכוון של זוגות תמונות שבהם שיטה אחת טוענת שהעיוותים דומים אך השנייה טוענת שהם שונים מאוד, ואז לשאול אנשים מי צודק, המחברים מראים שהגישה שלהם נוטה להתיישר טוב יותר עם מה שצופים רואים בפועל. המאגר גם חושף דפוסים אינטואיטיביים: הטיה קלה בולטת יותר בנוף ימי עם אופק חזק מאשר בסצינה עמוסה בצורות בזווית, ורעש בולט יותר בשמים חלקים מאשר במרקמים מפורטים. בסיכום, תוצאות אלו מצביעות ש-RAID מציע תיאור עשיר וממוקד אנוש יותר של האופן שבו אנו מבחינים בשינויים יומיומיים בתמונות, ומספק קרקע יציבה לבחינה ולשיפור הן של מודלים של הראייה האנושית והן של מערכות בינה מלאכותית ששואפות לראות את העולם כפי שאנחנו רואים אותו.

ציטוט: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0

מילות מפתח: איכות תמונה, ראייה אנושית, תפיסה חזותית, עיוותי תמונה, פסיכופיזיקה