Clear Sky Science · nl
Automatische classificatiemethode voor e‑commerce grondstoffen door invoering van zelfgecontroleerde concepten en de opbouw van een domeinontologie
Waarom het sorteren van online goederen op ingrediënten ertoe doet
Wanneer u meel of snacks online koopt, zoekt u meestal op wat het product doet—taartmix, broodmeel, bakingrediënten. Maar bedrijven, toezichthouders en zelfs gezondheidsbewuste consumenten geven vaak meer om waar die producten van gemaakt zijn. Hedendaagse e‑commerce sites organiseren goederen zelden op grondstoffen, en dit handmatig corrigeren zou betekenen dat miljoenen productpagina’s één voor één gecontroleerd moeten worden. Deze studie stelt een automatische manier voor om online producten te hergroeperen op basis van hun onderliggende ingrediënten, met een mix van deskundige kennis en machine learning.
Het probleem van door elkaar gegooide productrekken
Grote e‑commerce platformen vermelden miljoenen items en rangschikken die doorgaans op functie: “bakmix” of “snack”, in plaats van op tarwe, boekweit of maïs. Daardoor kunnen twee meelsoorten van hetzelfde graan in verschillende categorieën terechtkomen, terwijl producten met verschillende ingrediënten bij elkaar worden geplaatst omdat ze voor vergelijkbare doeleinden worden gebruikt. Dat is praktisch voor kopers maar een hoofdpijn voor verkopers en analisten die verkoop of kwaliteit per grondstof willen volgen. Bestaande automatische classificatiemethoden kopiëren meestal de labels van het platform zelf en vereisen veel handmatig gemarkeerde voorbeelden, wat duur is en nog steeds niet het ingrediëntengeoriënteerde perspectief oplost dat bedrijven nodig hebben.

Een slimme kaart van productingrediënten bouwen
De onderzoekers pakten dit aan door eerst domeindeskundigen te vragen een gestructureerde “kaart” van de meelwereld te ontwerpen, een zogenaamde domeinontologie. In heldere bewoordingen is dit een zorgvuldige lijst van meeltypen—zoals tarwe, volkoren tarwe, maïs, boekweit, rijst en kleefrijst—en de belangrijkste eigenschappen die ze onderscheiden, waaronder ruwe graansoort, glutensterkte, kwaliteitsklasse, merk en herkomst. Van echte productpagina’s op verschillende Chinese platforms oogstte het team vervolgens duizenden concrete uitdrukkingen die bij die kenmerken passen, zoals merknamen of gebruikelijke formuleringen voor herkomst. Ze vertrouwden op patroonmatchingsregels en een afstandsmaat tussen strings om bijna‑fouten in spelling en synoniemen te vangen, zoals licht verschillende namen voor hetzelfde type meel, en verwerkten deze in een domeinspecifieke woordenlijst.
Het laten labelen van data door de data zelf
Vervolgens pasten de auteurs het idee van zelfgestuurd leren toe: in plaats van mensen elk voorbeeld te laten labelen, lieten ze de data veel van zijn eigen labels creëren. Met hun ontologie en woordenlijst schreven ze regels die bepalen hoe ingrediëntkenmerken zouden moeten overeenkomen met een categorie. Als in de productgegevens duidelijk maïs als hoofdgraan wordt genoemd en andere eigenschappen overeenkomen met het maïsmeel‑profiel, behandelt het systeem die vermelding als een “standaard” voorbeeld van maïsmeel en accepteert het automatisch het categorielabel. Vermeldingen waarvan de eigenschappen met de deskundigeregelgeving in strijd zijn, of te vaag zijn, worden als “niet‑standaard” beschouwd en terzijde gehouden als ongelabelde gevallen. Op deze manier oogst het model duizenden schone trainingsvoorbeelden rechtstreeks uit rommelige catalogusdata zonder handmatige inspectie.

De classifier leren grondstoffen te herkennen
Met de standaardvoorbeelden in handen zet het systeem de tekst van elk product om in machineleesbare kenmerken. Het gebruikt een krachtig taalmodel, oorspronkelijk ontwikkeld voor Chinese tekst, om belangrijke entiteiten zoals merken, ingrediëntnamen en herkomstplaatsen te extraheren en voegt deze toe aan de domeinwoordenlijst. Een tokenizer splitst daarna producttitels en beschrijvingen in betekenisvolle stukken, verwijdert veelvoorkomende stopwoorden en bouwt een numeriek profiel op van hoe onderscheidend elke term is over de dataset. Klassieke machine‑learning classifiers worden getraind op deze profielen en de automatisch toegewezen ingrediëntcategorieën. De auteurs testten verschillende algoritmes op meer dan 18.000 meelvermeldingen en vonden dat een logistieke regressiemodel, een relatief eenvoudige methode, de beste balans bood tussen snelheid en nauwkeurigheid.
Hoe goed het systeem presteert—en waarom het algemene AI verslaat
Op meeldata verzameld van grote Chinese platforms behaalde de ingrediëntgebaseerde classifier ongeveer 91 procent nauwkeurigheid in totaal. Het was bijzonder sterk in het herkennen van veelvoorkomende meelsoorten, zoals standaard tarwe en kleefrijstmeel, en presteerde nog redelijk op lastiger categorieën zoals boekweit en maïs, waar producten vaak graanmengsels zijn. Het toevoegen van de domeinspecifieke woordenlijst verbeterde de resultaten duidelijk vergeleken met het uitsluitend gebruiken van kant-en-klare tekstfeatures. Het team vergeleek hun methode ook met een groot algemeen taalmodel dat zonder voorafgaande training op de dataset dezelfde taak moest uitvoeren. Dat zero‑shot model bleef achter, vooral bij zeldzamere meelsoorten, wat het voordeel benadrukt van het combineren van deskundige kennis met gerichte machine learning in plaats van uitsluitend te vertrouwen op brede maar oppervlakkige taalbegrip.
Wat dit betekent voor online winkelen en verder
Kort gezegd toont de studie aan dat e‑commerce platformen items automatisch kunnen hergroeperen op basis van waar ze van gemaakt zijn, niet alleen op waarvoor ze worden gebruikt. Door deskundige kennis over ingrediënten te coderen in een herbruikbare kaart en productpagina’s zichzelf te laten labelen, vermindert de aanpak sterk de behoefte aan handmatig taggen en behoudt toch een hoge nauwkeurigheid. Voor verkopers en analisten opent dit de deur naar schonere verkoopstatistieken, betere kwaliteitscontrole en preciezere reacties op kwesties zoals allergeenbewaking of voedingsanalyses. Hoewel aangetoond op meel, kan het recept—door experts opgebouwde ontologieën plus zelflabelregels en lichte classifiers—worden aangepast aan veel andere productcategorieën waar de grondstoffen echt belangrijk zijn.
Bronvermelding: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
Trefwoorden: e‑commerce classificatie, producten ingrediënten, zelfgestuurd leren, domeinontologie, tekstmining