Clear Sky Science · he
מסגרת מעשית לזיהוי אוטומטי של מוצרים ויצירת קטלוגים: מאגר נתונים, מודל וניתוח
מדפי חנויות חכמים יותר עבור קונים עסוקים
כל מי שחיפש קורנפלקס מסוים או ניסה קופה עצמית יודע שמדפי החנות עמוסים ומבלבלים. מאמר זה בוחן כיצד מחשבים יכולים להסתכל על מדפי מכולת יומיומיים ולזהות באופן אוטומטי מה נמצא שם, באמצעות תמונות רגילות במקום קודים. המטרה היא להאיץ ולהוזיל משימות כמו ספירות מלאי, יצירת קטלוגים ואפילו חיפוש מוצרים בטלפון, ולהפחית את התלות בעבודה ידנית. 
למה מדפים קשים למחשבים
מבט ראשון עלול לשים שבלימוד מחשב לזהות מוצרים נראה פשוט: פשוט להראות לו הרבה תמונות של כל פריט. במציאות, סצנות בסופרמרקט מסדרות ומורכבות. מוצרים מופיעים בגדלים רבים, מצילומי תקריב ביד הקונה ועד לצילומי מרחוק ממצלמות אבטחה. אריזות נראות דומות, נבדלות בפרטים קטנים, ולעתים מוסתרות חלקית מאחורי אחרות. התאורה משתנה, המדפים ממוינים מחדש, והמותגים נבדלים מאזור לאזור. מאגרי תמונות קיימים למחקר לעתים מתעלמים מהקשיים האלה, משתמשים במספר קטן של מוצרים, בתאורה מבוקרת או רק בתמונות תקריב. זה מקשה על פיתוח מערכות שעובדות באמת בחנויות אמיתיות.
מאגר תמונות מכולת חדש וריאלי
כדי לצמצם את הפער הזה, המחברים בנו מאגר תמונות חדש בשם Grocer-Help. הוא מכיל 13,771 תמונות המציגות כ-4,000 מוצרי מכולת שונים המסווגים ל-349 מחלקות מבוססות מותגים. התמונות נלקחו בשמונה חנויות בחמש מדינות הודיות שונות, מתקלטות בשישה סוגי מצלמות ניידות. הסצנות נעות מצילומי תקריב של כמה פריטים ועד לצילומי מרחק של רחבות מדף שלמות, ומכילות שכיחויות יומיומיות כמו סנוור, טשטוש תנועה, רקעים עמוסים וחסימת תוויות חלקית. כל מוצר בתמונה מסומן בקפידה במסגרת, מה שהוביל ליותר מ-166,000 פריטים מתוייגים. המאגר מחולק לשלושה סוגי תמונות עיקריים: תמונות תקריב, תמונות מרחוק ותמונות קטלוג נקיות מאונליין, שמאפשרות יחד לחוקרים לחקור כיצד מרחק הצפייה וסגנון הצילום משפיעים על הזיהוי.
מודל קומפקטי שרואה במספר סקיילים
לצד המאגר, המחברים מציגים מודל זיהוי קומפקטי שתוכנן לטפל במוצרים בגדלים שונים באותה סצנה. במקום להבחין בין פריטים קטנים לגדולים בנפרד, המודל משתמש יחידת בנייה מיוחדת שאוספת רמזים חזותיים בכמה סולמות בפרק זמן אחד. הוא מצרף את הרמזים הללו לפירמידת מפות תכונה, שבה כל שכבה מתמקדת ברמות פירוט שונות. זה עוזר למערכת לעקוב אחרי מוצרים מתצפיות מרוחקות ועד להבחנה בדקויות בין אריזות דומות. המודל גם בנוי להיות יעיל: הוא משתמש בפעולות קלות משקל כך שיוכל לפעול על מכשירים עם כוח חישוב מוגבל, מה שהופך אותו מתאים יותר לשימוש בחנויות או בחומרה צרכנית. 
בדיקות על פני מאגרים, חנויות ומרחקים
החוקרים משווים את המודל שלהם למערכות זיהוי עצמים פופולריות כגון גרסאות שונות של YOLO ו-RetinaNet על מספר מאגרי מזון קיימים ועל Grocer-Help. במאגר החדש, המודל שלהם משיג ציון מוצק בזיהוי נכונה של מוצרים תוך שימוש בפחות פרמטרים ממתחרים רבים. הוא מפגין דיוק וזכירה חזקים במיוחד, כלומר הוא טוב גם בהימנעות מאזהרות שווא וגם בכך שלא יחסיר פריטים, אם כי התיבות שלו לעיתים פחות מדויקות כששופטים לפי כללי חפיפה מחמירים. בדיקות מפורטות מגלות שהביצועים תלויים באופן הצילום: תמונות תקריב הן הכי נוחות, תצפיות מדפים מרוחקות קשות יותר, ושילוב תמונות קטלוג מקוונות לאימון יכול להזיק לתוצאות מכיוון שהן שונות מאוד מסצנות חנות אמיתיות. השוואות בין חנות לחנות מראות גם כי מדפים מסודרים ואריזות בסגנון תיבה נוטים לסייע לגלאי.
מה זה אומר לקמעונאות היומיומית
באופן פשוט, עבודה זו מראה כיצד להתקדם מעבר לסריקת ברקודים פשוטה למערכות מבוססות מצלמה ש"רואות" מדפים עמוסים. על ידי הצעת מאגר נתונים גדול וריאלי ומודל יעיל המטפל במוצרים בגדלים ובזוויות שונות, המחקר מספק בסיס לכלים מעשיים כמו בדיקות מלאי אוטומטיות, בניית קטלוגים מבוססי מדף ואפליקציות קניות ניידות חכמות יותר. אף שיש עדיין אתגרים, במיוחד בסצנות צפופות ולגבי מוצרים הנראים רק מספר פעמים באימון, Grocer-Help והמודל האוני-סקייל מקרבים את זיהוי המוצרים האוטומטי לשימוש יומיומי בקמעונאות בעולם האמיתי.
ציטוט: Sah, M., Mathew, J. & Dayananda, P. A real-world framework for automated product recognition and catalog generation: dataset, model, and analysis. Sci Rep 16, 14834 (2026). https://doi.org/10.1038/s41598-026-42266-9
מילות מפתח: זיהוי מוצרי מזון, זיהוי עצמים, חזון ממוחשב בקמעונאות, בנצ'מרק של מאגר נתונים, אוטומציה של מלאי