Clear Sky Science · he
שיטה אוטומטית למיון חומרי גלם במסחר אלקטרוני באמצעות הכנסת רעיונות למידה עצמי‑מנחים ובניית אונטולוגיית תחום
מדוע חשוב למיין מוצרים מקוונים לפי רכיבים
כשאתה קונה קמח או חטיפים באינטרנט, בדרך‑כלל תחפש לפי מה שהמוצר עושה — תערובת לעוגה, קמח ללחם, מרכיבי אפייה. אבל חברות, רגולטורים ואפילו צרכנים מודאגי בריאות מתעניינים לעתים קרובות יותר במה המוצרים עשויים ממנו. אתרי מסחר אלקטרוני כיום לעתים נדירות מסדרים סחורה לפי חומרי הגלם, ותיקון זה ידנית יחייב בדיקה של מיליוני דפי מוצר אחד‑אחד. המחקר הזה מציע דרך אוטומטית לארגן מחדש מוצרים מקוונים לפי הרכיבים הבסיסיים שלהם, באמצעות שילוב של ידע מומחה ולמידת מכונה.
בעיית המדפים המעורבבים
פלטפורמות מסחר אלקטרוני גדולות מפרטות מיליוני פריטים ובדרך‑כלל מארגנות אותם לפי פונקציה: "תערובת לאפייה" או "חטיף", במקום לפי חיטה, כוסמת או תירס. כתוצאה מכך, שני מוצרים מקמח מאותו דגן יכולים להופיע בקטגוריות שונות, בעוד שמוצרים עם רכיבים שונים עשויים להופיע יחד כי הם משמשים לאותם שימושים. זה נוח לקונים אך מהווה כאב ראש לסוחרים ולמנתחים שרוצים לעקוב אחרי מכירות או איכות לפי חומר גלם. שיטות סיווג אוטומטיות קיימות עושות בעיקר העתקה של תוויות הפלטפורמה ודורשות דוגמאות מתויגות רבות ידנית, דבר יקר שעדיין לא פותר את המבט המבוסס‑הרכיבים שהעסקים צריכים.

בניית מפת רכיבי מוצרים חכמה
החוקרים התמודדו עם הבעיה בכך שביקשו תחילה ממומחים בתחום לעצב "מפה" מובנית של עולם הקמחים, שנקראת אונטולוגיית תחום. במילים פשוטות, זו רשימה מדוקדקת של סוגי קמח — כגון חיטה, חיטה מלאה, תירס, כוסמת, אורז ואורז דביק — והתכונות המרכזיות שמבדילות ביניהם, כולל דגן גולמי, חוזק גלוטן, דרגת איכות, מותג ומקום מוצא. מדפי מוצר אמיתיים ממספר פלטפורמות סיניות שימשו למיצוי אלפי ביטויים קונקרטיים התואמים לתכונות אלה, כגון שמות מותגים או ניסוחים טיפוסיים למקור. הם הסתמכו על כללי התאמת תבניות ומדדי מרחק בין מחרוזות כדי לתפוס תיאורי שגיאות קרובים וסינונימים, כמו שמות מעט שונים לאותו סוג קמח, ושילבו אותם ברשימת מילים ייעודית לתחום.
לתת לנתונים לתייג את עצמם
בהמשך, המחברים התאימו את רעיון הלמידה העצמי‑מנחית: במקום לבקש מבני אדם לתייג כל דוגמה, הם נתנו לנתונים ליצור חלק גדול מהתוויות בעצמם. באמצעות האונטולוגיה ורשימת המילים, ניסחו כללים שקובעים איך מאפייני רכיב אמורים להתיישב עם קטגוריה. אם פרטי מוצר מציינים בצורה ברורה שתירס הוא הדגן העיקרי ותכונות נוספות תואמות לפרופיל קמח תירס, המערכת מתייחסת לרישום כאל דוגמה "סטנדרטית" של קמח תירס ומאמצת באופן אוטומטי את תווית הקטגוריה. רישומים שהמאפיינים שלהם מתנגשים עם כללי המומחים, או מעורפלים מדי, מטופלים כ"לא סטנדרטיים" ונשמרים בצד כמקרים ללא תיוג. כך המודל קוצר אלפי דוגמאות אימון נקיות ישירות מתוך קטלוגים מבולגנים ללא בדיקה ידנית.

להדריך את הממיין לזהות חומרי גלם
עם דוגמאות הסטנדרט ביד, המערכת ממירה כל טקסט מוצר לתכונות קריאות‑מכונה. היא משתמשת במודל שפה עוצמתי, שפותח במקור לטקסט סיני, כדי לחלץ ישויות חשובות כגון מותגים, שמות רכיבים ומקומות מוצא, ומוסיפה אותן לרשימת המילים התחומית. טוקניזר מפרק אחר כך כותרות ותיאורי מוצר לחתיכות משמעותיות, מסיר מילים רגילות מלאות ואבני מילוי, ובונה פרופיל מספרי של מידת הייחודיות של כל מונח לאורך מערך הנתונים. ממייני למידת מכונה קלאסיים מאומנים על פרופילים אלה ועל קטגוריות הרכיבים שיוחסו אוטומטית. המחברים בחנו מספר אלגוריתמים על יותר מ‑18,000 רישומי קמח ומצאו שמודל רגרסיה לוגיסטית, שיטה יחסית פשוטה, סיפק את האיזון הטוב ביותר בין מהירות לדיוק.
כמה המערכת עובדת — ולמה היא מובילה על AI כללי
על נתוני קמח שנאספו מפלטפורמות סיניות גדולות, הממיין המבוסס‑רכיבים השיג דיוק כולל של כ‑91 אחוז. הוא היה חזק במיוחד בזיהוי קמחים נפוצים, כגון קמח חיטה סטנדרטי וקמח אורז דביק, ועדיין ביצע באופן סביר על קטגוריות מורכבות יותר כמו כוסמת ותירס, שבהן מוצרים לעתים מערבבים דגנים. הוספת רשימת המילים הספציפית לתחום שיפרה בבירור את התוצאות בהשוואה לשימוש רק בתכונות טקסט סטנדרטיות. הצוות השווה גם את שיטתם למודל שפה גדול כללי שנדרש לבצע את אותה המשימה ללא אימון מוקדם על מערך הנתונים. אותו מודל זירו‑שוט נותר מאחור, במיוחד בסוגי קמח נדירים יותר, מה שמדגיש את היתרון של שילוב ידע מומחה עם למידת מכונה ממוקדת במקום להסתמך אך ורק על הבנה כללית ורחבה אך רדודה של השפה.
מה המשמעות לזה עבור קניות אונליין ומעבר להן
למען הפשטות, המחקר מראה שפלטפורמות מסחר אלקטרוני יכולות לארגן פריטים באופן אוטומטי לפי המרכיבים שממנו הם עשויים, לא רק לפי מה שמשתמשים עושים איתם. על‑ידי קידוד ידע מומחה על רכיבים למפה ניתנת לשימוש חוזר ואפשרות לדפי מוצר לתייג את עצמם, הגישה חוסכת באופן דרמטי את הצורך בתיוג ידני תוך שמירה על דיוק גבוה. עבור סוחרים ומנתחים, זה פותח דלת לסטטיסטיקות מכירה נקיות יותר, בקרה איכותית משופרת ותגובות מדויקות יותר לבעיות כמו מעקב אלרגנים או מגמות תזונתיות. אף על פי שהדגמה נעשתה על קמח, המתכון — אונטולוגיות שנבנו על‑ידי מומחים יחד עם כללי תיוג עצמי וממיינים קלים — יכול להיות מותאם לרבות קטגוריות מוצר אחרות שבהן חומרי הגלם אכן חשובים.
ציטוט: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
מילות מפתח: מיון מסחר אלקטרוני, רכיבי מוצר, למידה עצמי‑מנחית, אונטולוגיית תחום, כריית טקסט