Clear Sky Science · ar
طريقة تصنيف آلية لمواد خام السلع الإلكترونية من خلال إدخال مفاهيم التعلم الذاتي وبناء أنطولوجيا نطاقية
لماذا يهم فرز السلع الإلكترونية حسب المكونات
عند شراء الدقيق أو الوجبات الخفيفة عبر الإنترنت، غالباً ما تبحث حسب وظيفة المنتج — خليط الكعك، دقيق الخبز، مكونات الخَبز. لكن الشركات والجهات المنظمة وحتى المتسوقين المهتمين بالصحة يهتمون في كثير من الأحيان بما تتكوّن منه هذه المنتجات. مواقع التجارة الإلكترونية الحالية نادراً ما تنظّم السلع حسب المواد الخام، وتصحيح ذلك يدوياً يتطلّب فحص ملايين صفحات المنتجات واحدة تلو الأخرى. تقترح هذه الدراسة طريقة آلية لإعادة تجميع المنتجات عبر الإنترنت بحسب مكوناتها الأساسية، باستخدام مزيج من معرفة الخبراء وتعلم الآلة.
مشكلة رفوف المنتجات المختلطة
تدرج منصات التجارة الإلكترونية الكبيرة ملايين السلع وعادةً ما ترتّبها حسب الوظيفة: «خليط الخَبز» أو «وجبة خفيفة»، بدلاً من القمح أو الحنطة السوداء أو الذرة. نتيجة لذلك، قد ينتهي الأمر بدقيقين مصنوعين من نفس الحبة في فئات مختلفة، بينما تُوضع منتجات ذات مكونات مختلفة معاً لأنها تُستخدم لأغراض مماثلة. هذا مريح للمتسوقين لكنه يمثل صداعاً للتجار والمحللين الذين يريدون تتبع المبيعات أو الجودة بحسب المادة الخام. تقتصر طرق التصنيف الآلي الحالية في الغالب على تكرار تسميات المنصة وتحتاج إلى أمثلة موسومة يدوياً بكثرة، ما يُكلف كثيراً وما يزال لا يحل منظور التصنيف القائم على المكونات الذي تحتاجه الأعمال.

بناء خريطة ذكية لمكونات المنتج
عالج الباحثون ذلك أولاً بطلب من خبراء المجال تصميم «خريطة» منظمة لعالم الدقيق، تُسمى أنطولوجيا النطاق. ببساطة، هي قائمة مرتبة لأنواع الدقيق — مثل القمح، القمح الكامل، الذرة، الحنطة السوداء، الأرز، والأرز اللزج — والصفات الرئيسية التي تميّزها، بما في ذلك الحبوب الخام، قوة الغلوتين، درجة الجودة، العلامة التجارية، ومكان المنشأ. من صفحات منتجات فعلية على عدة منصات صينية، جمع الفريق بعد ذلك آلاف العبارات الملموسة المطابقة لتلك الصفات، مثل أسماء العلامات التجارية أو العبارات النموذجية للمنشأ. اعتمدوا على قواعد مطابقة أنماط ومقياس مسافة بين السلاسل لالتقاط الأخطاء الإملائية الطفيفة والمرادفات، مثل أسماء مختلفة قليلاً لنفس نوع الدقيق، وضمّوها في قائمة كلمات خاصة بالنطاق.
السماح للبيانات بوسم نفسها
بعد ذلك، عدّل المؤلفون فكرة التعلم الذاتي المراقبة: بدلاً من مطالبة البشر بوسم كل عينة، تركوا البيانات تُنشئ العديد من وسماتها بنفسها. باستخدام الأنطولوجيا وقائمة الكلمات، كتبوا قواعد تحدد كيف ينبغي أن تتطابق سمات المكوّن مع الفئة. إذا ذُكر في تفاصيل منتج أن الذرة هي الحبة الرئيسة ووافقت الصفات الأخرى على ملف الذرة، يتعامل النظام مع ذلك الإدراج كمثال «قياسي» لدقيق الذرة ويقبل تلقائياً وسم الفئة. تُعامل الإدخالات التي تتضارب سماتها مع قواعد الخبراء، أو التي تكون غامضة جداً، على أنها «غير قياسية» وتُترك جانباً كحالات غير موسومة. بهذه الطريقة، يجني النموذج آلاف أمثلة تدريب نظيفة مباشرة من بيانات الكتالوج الفوضوية دون فحص يدوي.

تدريب المصنّف على التعرف على المواد الخام
مع الأمثلة القياسية في اليد، يحول النظام نص كل منتج إلى ميزات قابلة للقراءة آلياً. يستخدم نموذج لغة قويّاً، طُوّر أصلاً للنصوص الصينية، لاستخراج الكيانات المهمة مثل العلامات التجارية وأسماء المكوّنات وأماكن المنشأ، ويضيفها إلى قائمة كلمات النطاق. ثم يكسر محلّل الرموز عناوين ووصف المنتجات إلى قطع ذات معنى، يزيل كلمات الحشو الشائعة، ويبني ملفاً رقمياً يبيّن تميّز كل مصطلح عبر مجموعة البيانات. تُدرّب مصنّفات تعلم الآلة التقليدية على هذه الملفات والبيانات المصنفة تلقائياً حسب المكوّن. اختبر المؤلفون عدة خوارزميات على أكثر من 18,000 إدراج لدقيق ووجدوا أن نموذج الانحدار اللوجستي، وهو طريقة بسيطة نسبياً، قدّم أفضل توازن بين السرعة والدقة.
مدى فاعلية النظام — ولماذا يتفوق على الذكاء الاصطناعي العام
على بيانات الدقيق المجمعة من منصات صينية كبرى، حقق المصنّف القائم على المكوّن حوالى 91 بالمئة دقة إجمالية. كان قوياً بشكل خاص في التعرف على أنواع الدقيق الشائعة، مثل دقيق القمح القياسي ودقيق الأرز اللزج، وما زال يؤدّي أداءً معقولاً على الفئات الأكثر تعقيداً مثل الحنطة السوداء والذرة، حيث تميل المنتجات إلى مزج الحبوب. حسّن إضافة قائمة الكلمات الخاصة بالنطاق النتائج بوضوح مقارنةً باستخدام ميزات نصية جاهزة فقط. كما قارن الفريق طريقته مع نموذج لغة عام كبير طُلِب منه إنجاز نفس المهمة دون تدريب مسبق على مجموعة البيانات. تراجع ذلك النموذج الصفري الأداء، خصوصاً في أنواع الدقيق النادرة، مما يؤكد ميزة الجمع بين معرفة الخبراء وتعلم الآلة المُوجّه بدلاً من الاعتماد فقط على فهم لغوي واسع لكن سطحي.
ماذا يعني هذا للتسوق عبر الإنترنت وما بعده
بعبارة بسيطة، تُظهر الدراسة أن منصات التجارة الإلكترونية يمكنها إعادة تجميع العناصر تلقائياً حسب ما تُصنع منه، لا فقط حسب ما تُستخدم من أجله. من خلال ترميز معرفة الخبراء عن المكوّنات في خريطة قابلة لإعادة الاستخدام وترك صفحات المنتجات لتوسم نفسها، تقلل المنهجية بشكل كبير من الحاجة إلى الوسم اليدوي مع الحفاظ على دقة عالية. للتجار والمحللين، يفتح هذا الباب أمام إحصاءات مبيعات أنظف، ومراقبة جودة أفضل، واستجابات أكثر دقة لقضايا مثل تتبّع مسببات الحساسية أو اتجاهات التغذية. على الرغم من إثباتها على الدقيق، يمكن تكييف الوصفة — أنطولوجيات مبنية من خبراء بالإضافة إلى قواعد الوسم الذاتي ومصنّفات خفيفة الوزن — مع فئات منتجات كثيرة أخرى حيث تكون المواد الخام ذات أهمية حقيقية.
الاستشهاد: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
الكلمات المفتاحية: تصنيف التجارة الإلكترونية, مكونات المنتج, التعلم الذاتي المراقبة, أنطولوجيا النطاق, تنقيب النصوص