Clear Sky Science · he

הפחתת תכונות שווא בלמידה הבוחנת בזיהוי רצפי כלי חרס

· חזרה לאינדקס

מדוע כלים שבורים חשובים למדע המודרני

במבט ראשון, ערימות של כלי חרס שבורים לכאורה ממושבות לפני 7,000 שנה בדרום סין נראות רחוקות מעולמות הבינה המלאכותית של היום. ואולם, השברים הללו הם מפתח להבנת חיי היומיום של בני התקופה הנאוליתית — והם גם חושפים חולשה בלתי-גלויה במערכות זיהוי תמונה מודרניות. המחקר הזה משתמש בלמידת מכונה מתקדמת למיון שברי חרס מהאתר חֶמוּדוּ לפי סוגים, תוך התמודדות עם בעיה שפוגעת ברבות ממערכות ה-AI: הנטייה להיצמד ל"קיצורי דרך" חזותיים מטעות במקום לרמזים המהותיים.

Figure 1
Figure 1.

כלי חרס עתיקים וסיפוריהם המוסתרים

האתר הארכאולוגי חֶמוּדוּ סיפק כ־400,000 שברי חרס — אוצר מידע לשחזור חיי היום־יום, טכנולוגיה וסחר בדרום סין בתקופה הנאוליתית. שני סוגי כלים עיקריים שולטים באתר. כלים שמועשרים בחול (sand-tempered) מלאים בחול וחצץ, מה שמקנה להם צפיפות, קשיחות ועמידות לחום. כלים שמועשרים בפחם/קרבון (charcoal-tempered) מכילים חומר צמחי שרוף, שגורם לנקבוביות ולקשרי אפר שמקלים ומחליקים את המשטח. הארכאולוגים מסווגים את הסוגים בעיקר לפי מרקם המשטח והרכב החומר, ולא לפי קווי המתאר הלא סדירים של כל שבר. אוטומציה של הסיווג הזה עשויה לחסוך שעות רבות של מומחים — בתנאי שהמחשב יתמקד באותם רמזים שמומחים סומכים עליהם.

כש-AI לומד את הלקח הלא נכון

החוקרים בנו מאגר תמונות מבוקר בקפידה באתר החפירה: צילמו 1,864 שברים בתוך אוהל חסום לאור עם תאורה קבועה ורקעים לבנים. מפתיע שבראשית הניסויים התגלה שרשת עמוקה סטנדרטית מסוגלת לסווג את הכלים היטב בהתבסס אך ורק על צורות השברים — עם דיוק גבוה בתמונות בינריות שמציגות רק קווי מתאר. לעומת זאת, כאשר החוקרים גזרו את הקצוות והשאירו רק את מרקם המשטח הפנימי, הדיוק ירד. משמעות הדבר היא שהמודל גילה קיצור דרך קל אך לא מהימן: צורת השבר הספציפית, שהארכאולוגים תופסים כהסתברות אקראית של שבירה ולא כסמן אמין לסוג הכלי. במונחי למידת מכונה, צורת השבר שימשה "תכונה שווא" — דפוס המקושר לתווית במאגר הנתונים אך אינו קשור באמת לקטגוריה הבסיסית.

להדריך את המודל לראות מעבר לקיצור הדרך

כדי לדחוף את המערכת לכיוון רמזים בעל משמעות, הצוות תיכנן אסטרטגיית אימון המבוססת על למידה קונטרסטיבית — טכניקה שמלמדת מודל אילו תמונות יש לראות כ"דומות" ואילו כ"שונות". עבור כל תמונה של כלי הם יצרו גרסה שנחתכה באקראי כך שחלק גדול מקו המתאר נעלם בעוד המשטח הפנימי נשמר. שתי התמונות הוצאו דרך אותו רשת חלוצת תכונות, ותהליך האימון אילץ את הייצוגים הפנימיים שלהן להתקרב זה לזה. במקביל, תמונות משני סוגי כלי חרס שונים נדחפו אחת מהשנייה בחלל התכונות. פונקציית אובדן ייעודית מסוג "Triplet-center" הדגישה אשכולות של שברים מאותה קטגוריה והפרידה בין אשכולות של כלים שמועשרים בחול לאלה שמועשרים בפחם — גם כאשר המרקם נראה דומה לעין בלתי מזוינת.

Figure 2
Figure 2.

ייצוב ואמינות בלמידה

לאחר שעיצבו את חלל התכונות הזה, החוקרים הקפיאו אותו ואימנו מעליו מסווג פשוט. כדי להימנע ממלכודת ההתאמה המופרזת — הביצוע המעולה על נתוני אימון אך הכישלון בדגימות חדשות — הם השתמשו בטכניקה הנקראת flooding. במקום להקטין את שגיאת האימון עד לאפס, flooding שומרת בכוונה על ערך אובדן קטן אך לא־אפסי, ומעודדת את המודל להתיישב באזור רחב ושטוח של פתרונות שנטוייה להכליל טוב יותר. הם גם בדקו טריקות נפוצות של הגדלת נתונים, כגון שינויי צבע וטשטוש. שינויים שהפריעו למידע מרקם פגעו בדרך כלל בביצועים, בעוד שינויים שהפריעו לצורה — כמו היפוכים אופקיים וגזירות אקראיות מכוונות — עזרו למודל להתעלם מרמזי המתאר המטעות.

מה משמעות הדבר לארכאולוגיה ו-AI

עם שילוב זה של אימון קונטרסטיבי, אובדן Triplet-center ו‑flooding, המערכת הגיעה לדיוק של 97.3% במאגר כלי החרס של חֶמוּדוּ, והתעלה על מספר מודלים ידועים לזיהוי תמונה. השיטה גם שיפרה ביצועים במבחן נפרד שבו סוגי עצמים מופיעים ברקעים חדשים ולא מוכרים, מה שמרמז שהיא יכולה לעזור לרבות ממערכות הראייה לעמוד בפני קורלציות שווא. עבור ארכאולוגים, כלים כאלה מבטיחים מיון מהיר ועקבי של אוספי שברים עצומים, ומשחררים מומחים לקדישתם לפירוש במקום לתיוג חוזר. מבחינת הקורא הפשטני, המסקנה ברורה: על־ידי אילוץ ה‑AI להתבונן מעבר לקיצורי דרך נוחים אך בלתי מהימנים — כמו קו המתאר המשונן של כד שבור — אפשר לבנות מערכות שרואות את העולם באופן שקרוב יותר לאופן שבו מומחים אנושיים מבינים אותו.

ציטוט: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

מילות מפתח: חרסי חֶמוּדוּ, למידה קונטרסטיבית, קורלציות שווא, הדמיה ארכאולוגית, סיווג תמונות