Clear Sky Science · de
Automatisches Klassifizierungsverfahren für Rohstoffe von E‑Commerce‑Waren durch Einführung selbstüberwachter Konzepte und Aufbau einer Domänenontologie
Warum die Sortierung von Online‑Waren nach Zutaten wichtig ist
Beim Kauf von Mehl oder Snacks online suchen Sie normalerweise nach dem Verwendungszweck—Backmischung, Brotmehl, Backzutaten. Unternehmen, Aufsichtsbehörden und gesundheitsbewusste Käufer interessieren sich jedoch oft mehr dafür, woraus diese Produkte bestehen. Heutige E‑Commerce‑Seiten ordnen Waren selten nach ihren Rohstoffen, und eine manuelle Korrektur würde bedeuten, Millionen Produktseiten einzeln zu prüfen. Diese Studie schlägt eine automatische Methode vor, Online‑Produkte nach ihren zugrundeliegenden Zutaten neu zu gruppieren, indem Expertenwissen mit maschinellem Lernen kombiniert wird.
Das Problem der durcheinandergeratenen Produktregale
Große E‑Commerce‑Plattformen listen Millionen Artikel und ordnen sie typischerweise nach Funktion: „Backmischung“ oder „Snack“ statt nach Weizen, Buchweizen oder Mais. Dadurch können zwei Mehle aus derselben Getreideart in unterschiedlichen Kategorien landen, während Produkte mit unterschiedlichen Zutaten wegen ähnlicher Verwendung zusammengefasst werden. Das ist praktisch für Käufer, aber problematisch für Händler und Analysten, die Umsatz oder Qualität nach Rohstoff verfolgen wollen. Bestehende automatische Klassifikationsmethoden übernehmen meist die Plattform‑Labels und benötigen viele manuell getaggte Beispiele, was teuer ist und die zutatenbasierte Sichtweise, die Unternehmen brauchen, nicht löst.

Eine intelligente Landkarte der Produktzutaten erstellen
Die Forschenden gingen das Problem an, indem sie zunächst Fachexperten baten, eine strukturierte „Landkarte“ der Mehlwelt zu entwerfen, genannt Domänenontologie. Einfach gesagt ist das eine sorgfältige Liste von Mehltypen—etwa Weizen, Vollkorn, Mais, Buchweizen, Reis und Klebreis—und der Schlüsselmerkmale, die sie unterscheiden, einschließlich Rohgetreide, Glutenstärke, Qualitätsstufe, Marke und Herkunftsangabe. Aus realen Produktseiten mehrerer chinesischer Plattformen sammelte das Team dann Tausende konkreter Phrasen, die zu diesen Merkmalen passen, wie Markennamen oder typische Formulierungen für die Herkunft. Sie nutzten Musterabgleichregeln und eine Distanzmessung zwischen Zeichenketten, um Rechtschreibvarianten und Synonyme zu erfassen—etwa leicht unterschiedliche Bezeichnungen für denselben Mehltyp—und integrierten diese in eine domänenspezifische Wortliste.
Die Daten sich selbst beschriften lassen
Als Nächstes adaptierten die Autoren das Konzept des selbstüberwachten Lernens: Statt Menschen jedes Beispiel taggen zu lassen, erzeugen die Daten viele ihrer eigenen Labels. Mithilfe der Ontologie und der Wortliste formulierten sie Regeln, die beschreiben, wie Zutatenattribute mit einer Kategorie übereinstimmen sollten. Wenn in den Produktdetails deutlich Mais als Hauptgetreide genannt wird und weitere Merkmale zum Maismehlprofil passen, behandelt das System den Eintrag als „Standard“-Beispiel für Maismehl und nimmt das Kategorielabel automatisch an. Einträge, deren Attribute den Expertenregeln widersprechen oder zu vage sind, werden als „nicht standardisiert“ betrachtet und als unlabeled Fälle beiseitegelegt. Auf diese Weise gewinnt das Modell Tausende sauberer Trainingsbeispiele direkt aus unordentlichen Katalogdaten, ohne manuelle Prüfung.

Den Klassifikator lehren, Rohstoffe zu erkennen
Mit den Standardbeispielen wandelt das System jeden Produktext in maschinenlesbare Merkmale um. Es verwendet ein leistungsfähiges Sprachmodell, das ursprünglich für chinesischen Text entwickelt wurde, um wichtige Entitäten wie Marken, Zutatenbezeichnungen und Herkunftsorte zu extrahieren, und ergänzt diese um die Domänenwortliste. Ein Tokenizer zerlegt dann Produkttitel und Beschreibungen in sinnvolle Einheiten, entfernt häufige Füllwörter und erstellt ein numerisches Profil, das angibt, wie charakteristisch jeder Begriff über den Datensatz hinweg ist. Klassische Machine‑Learning‑Klassifikatoren werden auf diesen Profilen und den automatisch zugewiesenen Zutatenkategorien trainiert. Die Autoren testeten mehrere Algorithmen an mehr als 18.000 Mehlangeboten und stellten fest, dass ein logistisches Regressionsmodell—a relativ einfache Methode—das beste Verhältnis von Geschwindigkeit und Genauigkeit lieferte.
Wie gut das System funktioniert—und warum es generelle KI übertrifft
Anhand von Mehldaten, die von großen chinesischen Plattformen gesammelt wurden, erreichte der zutatenbasierte Klassifikator insgesamt etwa 91 Prozent Genauigkeit. Besonders gut erkannte er gängige Mehle wie Standardweizen und Klebreismehl und lieferte weiterhin ordentliche Ergebnisse bei schwierigeren Kategorien wie Buchweizen und Mais, wo Produkte oft gemischte Getreide enthalten. Die Ergänzung um die domänenspezifische Wortliste verbesserte die Ergebnisse deutlich gegenüber der ausschließlichen Nutzung vorgefertigter Textmerkmale. Das Team verglich seine Methode außerdem mit einem großen, allgemein einsetzbaren Sprachmodell, das dieselbe Aufgabe ohne Vortraining auf den Datensatz im Zero‑Shot‑Modus ausführte. Dieses Modell lag zurück, vor allem bei selteneren Mehlarten, und unterstrich den Vorteil, Expertenwissen mit gezieltem maschinellen Lernen zu kombinieren statt sich allein auf breites, aber oberflächliches Sprachverständnis zu verlassen.
Was das für Online‑Shopping und darüber hinaus bedeutet
Kurz gesagt zeigt die Studie, dass E‑Commerce‑Plattformen Artikel automatisch nach ihren Bestandteilen und nicht nur nach Verwendungszweck neu gruppieren können. Indem Expertenwissen über Zutaten in eine wiederverwendbare Landkarte codiert und Produktseiten sich selbst beschriften lassen, reduziert der Ansatz den Bedarf an manueller Kennzeichnung deutlich bei gleichbleibend hoher Genauigkeit. Für Händler und Analysten eröffnet dies sauberere Verkaufsstatistiken, bessere Qualitätskontrollen und präzisere Maßnahmen bei Themen wie Allergen‑Tracking oder Ernährungstrends. Obwohl die Methode am Beispiel Mehl demonstriert wurde, lässt sich das Rezept—expertengebaute Ontologien plus Selbstbeschriftungsregeln und leichte Klassifikatoren—auf viele andere Produktkategorien übertragen, überall dort, wo die Rohstoffe wirklich zählen.
Zitation: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
Schlüsselwörter: E‑Commerce‑Klassifikation, Produktzutaten, selbstüberwachtes Lernen, Domänenontologie, Text‑Mining