Clear Sky Science · he
מסגרת לאימות והערכה של סכמות שחולצו במסדי נתונים בפורמט JSON
מדוע תבניות הנתונים הנסתרות חשובות
יישומים מודרניים — החל מחנויות מקוונות ועד מערכות בתי חולים ורשתות חיישנים — מאחסנים לעיתים קרובות מידע בבסיסי נתונים גמישים "בלי סכימה". מערכות אלה מאפשרות לפתח את הנתונים על הצד ולשנותם בקלות, אך הן מסתירות את התבנית הבסיסית, או הסכמה, שמספרת אילו שדות קיימים, כיצד הם קשורים וכיצד הם משתנים לאורך זמן. כאשר מהנדסים מנסים מאוחר יותר לשלב נתונים, לייעל שאילתות או פשוט להבין מה מאוחסן, עליהם תחילה לשחזר את התבנית הנסתרת הזו. כלים רבים מנסים לנחש סכמות כאלה באופן אוטומטי, אך עד כה לא הייתה דרך סטנדרטית ואובייקטיבית לשפוט עד כמה הניחושים הללו טובים באמת.
קנה מידה למבנה נתונים נסתר
מאמר זה מציג את מסגרת אימות והערכה של סכמות (SVEF), שיטה שיטתית למדידת איכות סכמות שחולצו ממסדי נתונים בפורמט JSON ודומיו. במקום להתמקד באופן הפקת הסכמה, SVEF בוחנת רק מה שהתבנית המתקבלת מצהירה על הנתונים ובודקת זאת מול מה שבאמת מאוחסן. המסגרת מפרקת את איכות הסכמה לשישה היבטים אינטואיטיביים: האם סוגי השדות נכונים; אילו שדות באמת חובה לעומת אופציונליים; האם שדה יכול בבטחה לקבל מספר סוגי ערכים שונים; עד כמה רשימות ומערכים מאורגנים בצורה נקייה; עד כמה קשרים בין ישויות משוחזרים; וכמה הסכמה עוקבת בדיוק אחר שינויים על פני זמן. כל היבט מקבל מדדים כמותיים, והציונים משולבים למדד איכות כולל אחד.

שישה משקפיים על איכות הנתונים
כל אחד מששת הממדים של SVEF בוחן נקודת כאב נפוצה לעובדים עם נתונים בלי סכימה. דיוק סוגי הנתונים בודק האם קטגוריות בסיסיות כמו טקסט, מספרים וערכי אמת/שקר תואמות למה שבאמת קיים. שדות חובה ואופציונליים מתמקדים בתבניות נוכחות וקיום‑ביחד: למשל, שלכל הזמנה חייב להיות מזהה הזמנה, בעוד שקוד הנחה מופיע רק לפעמים ועלול להפעיל שדות נוספים כאשר הוא קיים. תמיכה בסוגים מרובים מזהה כי אותו שדה עשוי להופיע כחוק כמספר ברשומות מסוימות ואובייקט מובנה באחרות, ומעניקה עדיפות לסכמות שתופסות את הגיוון הזה בלי להכליל יתר על המידה. עקביות מבנה האוספים מתמקדת במערכים, ושותלת שאלה האם לרשימות יש עומק ומבנה אלמנטים צפויים במקום להיות משטוחות או מטופלות כשקים לא ממיינם של ערכים.
מעקב אחר קישורים ומעקב אחרי הזמן
שני ממדים נוספים מתרחבים מעבר לרשומות יחידות. שיחזור יחסי הישות מעריך עד כמה סכימה מוסקת לוכדת קישורים כמו "לקוח יש לו הזמנות רבות" או "מטופל עבר טיפולים רבים", גם כאשר הקישורים האלה רק מצולעים על‑ידי מזהים חוזרים או אובייקטים מקוננים. SVEF משווה את רשת הישויות והחיבורים בסכמה המוסקת עם התייחסות מהימנה באמצעות מדדים מבוססי‑גרף שמאזנים נכונות מקומית ומבנה גלובלי. גילוי האבולוציה הזמנית שואל האם השיטה יכולה להבחין ולתאר שינויים בתבנית הנתונים לאורך זמן: שדות חדשים שמופיעים, שדות ישנים שנעלמים, או ערכים פשוטים שהופכים לתת‑אובייקטים עשירים יותר. על‑ידי חיתוך הנתונים לחלונות זמן והשוואת סכמות ביניהם, SVEF שופטת גם האם נקודות השינוי המתאימות זוהו והאם השיטה רגישה מדי או איטית מדי.

ניסיון המסגרת במבחן
כדי לראות מה SVEF מגלה בפועל, המחברים יישמו אותה על שלוש גישות שונות להסקת סכמות ועל שלושה מאגרי נתונים שעוצבו בקפידה: חנות אלקטרונית, מערכת בריאות ורשת חיישנים באינטרנט של הדברים. מאגרי הנתונים הללו היו סינתטיים אך ריאליסטיים, עם "אמת־יסודית" ידועה של סכמות שכללה שדות אופציונליים, מאפייני סוג־איחוד, רשימות מקוננות, התייחסויות בין ישויות ושינויים מבניים מתוכננים לאורך זמן. כל שלוש השיטות הצליחו בזיהוי סוגים בסיסיים, אך חוזקותיהן פיזרו במקומות אחרים. גישה ממוקדת מבנית הצטיינה בזיהוי שדות חובה ומעקב אחר אבולוציית הסכמה, שיטה ממוקדת יחסים הייתה הטובה ביותר במיפוי הקישורים בין ישויות, וטכניקה מועשרת סמנטית טיפלה בסוגי שדות מעורבים ובסדירות מערכים בצורה חלקה יותר. אף אחת מהן לא הייתה החזקה ביותר בכל ששת הממדים, והתפניות ביניהן התבהרו רק כאשר הסתכלו דרך עדשות מרובות של SVEF.
מה משמעות הדבר לעבודה עם נתונים בעולם האמיתי
בעבור מיישמים, המסגרת מציעה מכשיר מדידה נחוץ להשוואה ושיפוט של כלים שמייצרים מחדש מבנה נתונים ממאגרי נתונים בלי סכימה. במקום להסתמך על בדיקות אקראיות או הסתכלות על סכימות לדוגמה, צוותים יכולים מעתה לכמת עד כמה שיטה תופסת את יסודות הנתונים שלהם, כולל תלותים עדינים ואבולוציה ארוכת‑טווח. עבור חוקרים, SVEF מדגישה היכן הטכניקות הנוכחיות מתקשות — במיוחד עם שדות מותנים, מערכים מורכבים והסטייה הטמפורלית — ומכוונת לעבר שיטות מאוזנות יותר שמשלבות שיקול מבני, סמנטי ורגיש לזמן. בקיצור, המחקר הופך את איכות הסכמה מרושם מעורפל לנכס הניתן למדידה, ועוזר לארגונים לבטוח ולשפר את התבניות הבלתי נראות שמניעות את המערכות המונעות‑נתונים שלהם.
ציטוט: Belefqih, S., Barchane, M., Zellou, A. et al. Schema validation and evaluation framework for extracted schemas in JSON databases. Sci Rep 16, 10873 (2026). https://doi.org/10.1038/s41598-026-45554-6
מילות מפתח: סכמת JSON, מסדי נתונים NoSQL, הסקת סכימה, אינטגרציית נתונים, אבולוציה זמנית