Clear Sky Science · he

סיווג תמונות של ארכיטקטורה עתיקה באמצעות למידת פseudoinverse מתקדמת עם הצטברות פרוגרסיבית

2026-03-23 · חזרה לאינדקס

מדוע בניינים ישנים נפגשים עם אלגוריתמים מודרניים

בכל רחבי סין מצולמים מקדשים וארמונות עם גגות קשתיים ותומכי עץ מעוטרים בכמויות גדולות. ארכיונאים ושמרנים זקוקים למיון מהיר של התמונות הללו, אך מיון בעין אנושית איטי ותלוי בפרשנות. מאמר זה מציג דרך חדשה ללמד מחשבים לזהות ולסווג תמונות של מבנים עתיקים בצורה מדויקת ויעילה יותר, ובכך לסייע בהגנה על המורשת התרבותית בעידן הדיגיטלי.

מה מקשה על הבחנה בין המבנים

הארכיטקטורה הסינית העתיקה עשירה בתבניות חוזרות: קווי גג מעוקלים, מערכי תומכים משוכפלים מתחת למרפסות, קורות מעוטרות וקישוטי סביבה צבעוניים. מבנים רבים חולקים פריסות דומות, כשההבדלים הם לעתים בשינויים עדינים בעקומת הגג או בצורת התומכים. מערכות זיהוי תמונה סטנדרטיות, שלומדות על ידי כוונון הדרגתי של משקלים פנימיים, עלולות להפגע מהבדלים זעירים אלה ומהסחות דעת כמו צבע קיר או תנאי תאורה. הן גם נוטות להתאים יתר על המידה לסגנון אזורי כאשר מאמנים אותן בבת אחת על אצווה גדולה של תמונות, מה שמפחית את יכולת ההכללה לאתרים אחרים.

דרך חכמה יותר להתבונן בפרטים מרכזיים

המחברים מציגים מסגרת בשם סיווג תמונות ארכיטקטורה עתיקה עם למידת pseudoinverse הצטברותית פרוגרסיבית (AAPSP). בליבה של המסגרת נמצא מודול שנקרא הצטברות תכונות מפתח עם למידת pseudoinverse (KFSP). במקום להתחיל מהגדרות אקראיות לחלוטין, KFSP בונה מספר "לומדים בסיסיים" מקבילים, כל אחד מאותחל בדפוסי משקלים שמיועדים להתאים לתכונות חזותיות מסוימות. שני סניפים מכוונים להיות רגישים במיוחד למבנים חלקים ורציפים כמו קווי גג, בעוד שסניף שלישי מכוון לתפוס מרקמים מפוזרים יותר כמו מוטיבים דקורטיביים. קיצור מתמטי הידוע כלמידת pseudoinverse מאפשר לאמן סניפים אלה למעשה במהלך אחד, וכך להימנע מעדכוני משקל אטיים שלב אחרי שלב כפי שנעשה בלמידה עמוקה מסורתית.

לאפשר למודל לשים לב לאן שזה חשוב

ריבוי סניפים לבדו אינו מספיק; המערכת חייבת גם להחליט איזה סניף מועיל ביותר בכל החלטה. לשם כך משתמשת KFSP במנגנון תשומת לב שמודד עד כמה פלט כל סניף תואם את תוויות המבנים האמיתיות. סניפים שבולטים בלכידת אלמנטים מזהים — כגון צורת קשת דלי או מתאר של קישוט שורת רכס — מקבלים אוטומטית השפעה רבה יותר בעת שילוב התוצרים שלהם. ייצוג מצטבר זה יוצר מרחב תכונות שמתאים יותר ל"לוגיקה של הצורה" שבעולם הארכיטקטורה העתיקה, כך שמבנים עם רכיבים מבניים דומים יתאגדו יחד ומבנים בסגנונות שונים יופרדו בצורה ברורה יותר.

למידה מהתמונות המועילות ביותר

המודול השני בליבה, למידת אופטימיזציה פרוגרסיבית (POL), מתמודד עם בעיה אחרת: תמונות אימון מיותרות. רבות מהתמונות במאגר מציגות זוויות כמעט זהות של אותו חזית, ומספקות מעט מידע חדש. POL מתחיל בחלוקה של הנתונים לסט אימון ראשוני ובריכת מועמדים גדולה יותר. בהסתמך על רעיונות מלמידה אקטיבית, הוא מנתח באיזו ביטחון המודל הנוכחי מסווג כל תמונת מועמד וכמה תכונותיה חריגות. תמונות שהן גם לא ודאיות וגם מובחנות — כגון סידורי תומכים נדירים או שילובי גג יוצאי דופן — מועברות בהדרגה לסט האימון. המחזור הזה חוזר, ומעשיר בהדרגה את נתוני האימון בדוגמאות מאתגרות ומגוונות מבלי להגדיל את מספר התמונות הכולל שבשימוש.

כמה טוב זה עובד במציאות

המחברים בחנו את הגישה שלהם על אוסף ציבורי של 2,269 תמונות משישה מקדשים וארמונות מפורסמים. לאחר יישום KFSP לבדו, המערכת כבר התעלתה על שיטה מקבילה שהתבססה על הקרנות אקראיות מוחלטות. כאשר נוספה בחירת דגימות פרוגרסיבית של POL, דיוק הסיווג השתפר עוד יותר, ומדדי precision, recall ו-F1 עלו כולם. במלים אחרות, המודל הפך גם ליותר מהימן בתחזיות הנכונות שלו וגם טוב יותר בזיהוי קטגוריות פחות שכיחות. המחקר גם הדגיש קושי שנותר: קטגוריות עם מעט תמונות מאוד עדיין מהוות אתגר, שכן אפילו לומד חכם מתקשה כשאין מספיק מגוון לימוד.

מדוע זה חשוב למורשת התרבותית

על ידי כוונון זהיר הן של מה שהמודל שם אליו לב והן של אילו תמונות הוא לומד מהן, AAPSP מציע כלי מדויק יותר למיון ולחקר תמונות של מבנים היסטוריים. עבור אנשי שימור ומורשת, משמעות הדבר היא יצירה מהירה יותר של ארכיונים דיגיטליים, תמיכה טובה יותר בתיארוך והשוואת סגנונות ארכיטקטוניים ומעקב חזק יותר של אתרים הפרושים באזורים שונים. אף שהשיטה מותאמת לארכיטקטורה הסינית העתיקה, רעיונות הליבה שלה — הדגשת פרטים מבניים מרכזיים והתמקדות פרוגרסיבית בדוגמאות נדירות אך אינפורמטיביות — ניתנים להתאמה לסוגים אחרים של עצמים תרבותיים, מפסלים ועד רחובות היסטוריים.

ציטוט: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9

מילות מפתח: ארכיטקטורה עתיקה, סיווג תמונות, מ heritage תרבותי, למידת מכונה, למידה אקטיבית