Clear Sky Science · ar

إطار عملي للتعرّف الآلي على المنتجات وتوليد الكتالوجات: مجموعة بيانات، نموذج، وتحليل

· العودة إلى الفهرس

رفوف متاجر أذكى للمتسوقين المشغولين

كل من بحث عن علبة حبوب محدّدة أو جرب الصندوق الذاتي للدفع يعلم أن رفوف المتاجر مكتظة ومربكة. تستعرض هذه الورقة كيف يمكن لأجهزة الكمبيوتر أن تنظر إلى رفوف البقالة اليومية وتتعرّف تلقائيًا على الموجود فيها، باستخدام صور عادية بدلاً من الرموز الشريطية. الهدف هو جعل مهام مثل عدّ المخزون، إنشاء الكتالوجات، وحتى البحث عن المنتجات عبر الهاتف أسرع وأرخص وأقل اعتمادًا على العمل اليدوي.

Figure 1. كيف يمكن لصورة هاتف لرفوف المتجر أن تتحول إلى قائمة تلقائية بالمنتجات للتجار والمتسوقين
Figure 1. كيف يمكن لصورة هاتف لرفوف المتجر أن تتحول إلى قائمة تلقائية بالمنتجات للتجار والمتسوقين

لماذا تشكّل الرفوف تحديًا لأجهزة الكمبيوتر

قد يبدو للوهلة الأولى أن تعليم الحاسوب اكتشاف المنتجات أمر بسيط: عرض الكثير من الصور لكل بند. لكن في الواقع مشاهد السوبرماركت فوضوية. تظهر المنتجات بأحجام متعددة، من لقطات مقربة في يد المتسوق إلى مشاهد بعيدة من كاميرات المراقبة. التغليفات متشابهة وتختلف بتفاصيل صغيرة، وقد تكون مغطّاة جزئيًا وراء أخرى. يتغير الإضاءة، تُعاد ترتيب الرفوف، وتختلف العلامات التجارية بين المناطق. مجموعات الصور البحثية الحالية غالبًا ما تتجاوز هذه المشكلات، مستخدمة أعدادًا صغيرة من المنتجات، أو إضاءة مضبوطة، أو صورًا مقربة فقط. وهذا يصعّب تطوير أنظمة تعمل فعليًا في المتاجر الحقيقية.

مجموعة صور بقالة جديدة وواقعية

لسد هذه الفجوة، بنى المؤلفون مجموعة صور جديدة اسمها Grocer-Help. تحتوي على 13,771 صورة تُظهر نحو 4,000 منتج بقالة مميز موزّعًا على 349 فئة مبنية على العلامات التجارية. الصور مأخوذة من ثمانية متاجر في خمس ولايات هندية مختلفة، وتم التقاطها بستة أنواع من كاميرات الهواتف المحمولة. تتراوح المشاهد من لقطات مقربة لعدد قليل من الأصناف إلى مشاهد بعيدة للعدادات الكاملة، وتشمل خصائص يومية مثل الوهج، طمس الحركة، الخلفيات المزدحمة، والحجب الجزئي للملصقات. كل منتج في الصورة مُعلّم بعناية بمربع حوله، ليصل العدد إلى أكثر من 166,000 عنصر معنّون. تنقسم مجموعة البيانات إلى ثلاثة أنواع رئيسية من الصور: لقطات مقربة، لقطات بعيدة، وصور كتالوجات إلكترونية نظيفة، مما يتيح للباحثين دراسة كيف تؤثر مسافة المشاهدة وطريقة الالتقاط على التعرّف.

نموذج نحيل يرى عبر مقاييس متعددة

جنبًا إلى جنب مع مجموعة البيانات، يقدّم المؤلفون نموذج كشف مدمج مصمم للتعامل مع المنتجات بأحجام متعددة داخل المشهد نفسه. بدلًا من التعامل مع العناصر الصغيرة والكبيرة بشكل منفصل، يستخدم النموذج وحدة خاصة تجمع دلائل بصرية عبر عدة مقاييس في آن واحد. ثم يصنّف هذه الدلائل ضمن هرم من خرائط الميزات، حيث تركز كل طبقة على مستوى مختلف من التفاصيل. يساعد ذلك النظام على تتبّع المنتجات من مشاهد الرف البعيدة وصولًا إلى الفروق الدقيقة بين عبوات متشابهة. كما أن النموذج مصمّم ليكون كفؤًا: يستخدم عمليات أخف وزنًا ليعمل على أجهزة ذات قدرة حسابية محدودة، مما يجعله أكثر ملاءمة للاستخدام في المتاجر أو على أجهزة المستهلكين.

Figure 2. كيف يجمع نموذج رؤية حاسوبية تفاصيل على العديد من المقاييس لرسم مربعات حول أصناف البقالة على الرفوف المزدحمة
Figure 2. كيف يجمع نموذج رؤية حاسوبية تفاصيل على العديد من المقاييس لرسم مربعات حول أصناف البقالة على الرفوف المزدحمة

الاختبار عبر مجموعات بيانات ومتاجر ومسافات

يقارن الباحثون نموذجهم مع أنظمة كشف الأشياء الشهيرة مثل إصدارات مختلفة من YOLO وRetinaNet على عدة مجموعات بيانات بقالة موجودة وعلى Grocer-Help. على مجموعة البيانات الجديدة، يصل نموذجهم إلى درجة جيدة في إيجاد المنتجات مع استخدام عدد معلمات أقل من العديد من المنافسين. يحقق دقة واسترجاع قويين بشكل خاص، مما يعني أنه جيد في تجنّب الإنذارات الكاذبة وفي عدم تفويت العناصر، رغم أن المربعات تكون أحيانًا أقل إحكامًا عند الحكم بقواعد تداخل صارمة جدًا. تكشف الاختبارات المفصّلة أن الأداء يعتمد على طريقة التقاط الصور: الصور المقربة هي الأسهل، ومشاهد الرف البعيدة أصعب، وخلط صور الكتالوجات الإلكترونية ضمن التدريب قد يضر النتائج لأنها تختلف كثيرًا عن مشاهد المتجر الحقيقية. كما تُظهر المقارنات متجرًا بمتجر أن الرفوف المرتبة والتغليف على شكل صناديق تميل إلى مساعدة الكاشف.

ماذا يعني هذا لتجارة التجزئة اليومية

بعبارات بسيطة، يبيّن هذا العمل كيف يتم الانتقال من المسح بالرموز الشريطية نحو أنظمة معتمدة على الكاميرا يمكنها «رؤية» رفوف المتاجر المزدحمة. من خلال توفير مجموعة بيانات كبيرة وواقعية ونموذجًا كفؤًا يتعامل مع المنتجات بأحجام وزوايا مختلفة، يقدّم البحث أساسًا لأدوات عملية مثل فحوصات الجرد التلقائية، بناء الكتالوج القائم على الرفوف، وتطبيقات التسوق المحمولة الأذكى. بينما لا تزال هناك تحديات، خصوصًا في المشاهد المكتظة جدًا وللمنتجات التي تُرى مرات قليلة فقط في التدريب، تقرّب Grocer-Help والنموذج المتعدد المقاييس التعرّف الآلي على المنتجات من الاستخدام اليومي في تجارة التجزئة الواقعية.

الاستشهاد: Sah, M., Mathew, J. & Dayananda, P. A real-world framework for automated product recognition and catalog generation: dataset, model, and analysis. Sci Rep 16, 14834 (2026). https://doi.org/10.1038/s41598-026-42266-9

الكلمات المفتاحية: التعرّف على منتجات البقالة, كشف الأشياء, رؤية حاسوبية في تجارة التجزئة, معيار مجموعة بيانات, أتمتة الجرد