Clear Sky Science · sv

Automatisk klassificeringsmetod för e‑handelsprodukter utifrån råvaror genom införande av självövervakade begrepp och konstruktion av domänontologi

2026-02-10 · Tillbaka till index

Varför det spelar roll att sortera nätvaror efter ingredienser

När du köper mjöl eller snacks online söker du vanligtvis efter vad produkten används till — kakmix, brödmjöl, bakingredienser. Men företag, myndigheter och till och med hälsomedvetna konsumenter bryr sig ofta mer om vad produkterna är gjorda av. Dagens e‑handelsajter organiserar sällan varor efter råvaror, och att åtgärda det manuellt skulle innebära att man kontrollerar miljontals produktsidor en efter en. Denna studie föreslår ett automatiskt sätt att gruppera om onlineprodukter efter deras underliggande ingredienser, med en blandning av expertkunskap och maskininlärning.

Problemet med ihopblandade produkthyllor

Stora e‑handelsplattformar listar miljontals artiklar och ordnar dem vanligtvis efter funktion: ”bakmix” eller ”snack”, istället för vete, bovete eller majs. Som en följd kan två mjölsorter från samma spannmål hamna i olika kategorier, medan produkter med olika ingredienser placeras tillsammans eftersom de används för liknande ändamål. Det är praktiskt för kunder men en huvudvärk för handlare och analytiker som vill följa försäljning eller kvalitet per råvara. Befintliga automatiska klassificeringsmetoder kopierar mestadels plattformens egna etiketter och kräver många manuellt märkta exempel, vilket är dyrt och ändå inte löser den ingrediensbaserade vy som företag behöver.

Att bygga en smart karta över produktingredienser

Forskarna angrep problemet genom att först be domänexperter att utforma en strukturerad ”karta” över mjölvärlden, kallad en domänontologi. I enkla termer är detta en omsorgsfull lista över mjölsorter — såsom vete, fullkornsvete, majs, bovete, ris och klibbigt ris — och de nyckeldrag som särskiljer dem, inklusive råspannmål, glutenstyrka, kvalitetsklass, varumärke och ursprungsplats. Från verkliga produktsidor på flera kinesiska plattformar skördade teamet sedan tusentals konkreta fraser som matchar dessa egenskaper, såsom varumärken eller typiska formuleringar för ursprung. De förlitade sig på mönstermatchningsregler och ett avståndsmått mellan strängar för att fånga stavfel och synonymer, till exempel något olika namn för samma mjöltyp, och infogade dem i en domänspecifik ordlista.

Låt datan märka sig själv

Därefter anpassade författarna idén om självövervakad inlärning: istället för att låta människor märka varje prov lät de datan skapa många egna etiketter. Med deras ontologi och ordlista skrev de regler som anger hur ingrediensattribut ska stämma överens med en kategori. Om en produkts uppgifter tydligt nämner majs som huvudsakligt spannmål och andra egenskaper matchar profil för majsmjöl, behandlar systemet den listningen som ett ”standard” exempel på majsmjöl och accepterar automatiskt dess kategorietikett. Listningar vars attribut strider mot expertreglerna, eller som är för vaga, betraktas som ”icke‑standard” och sparas åt sidan som omärkta fall. På så vis skördar modellen tusentals rena träningsexempel direkt från röriga katalogdata utan manuell granskning.

Att lära klassificeraren att känna igen råvaror

Med standardexemplen i hand omvandlar systemet varje produkts text till maskinläsbara egenskaper. Det använder en kraftfull språkmodell, ursprungligen utvecklad för kinesisk text, för att extrahera viktiga entiteter som varumärken, ingrediensnamn och ursprungsorter, och lägger till dessa i domänordlistan. En tokenizer delar sedan upp produktnamn och beskrivningar i meningsfulla delar, tar bort vanliga utfyllnadsord och bygger en numerisk profil av hur distinkt varje term är i hela datasetet. Klassiska maskininlärningsklassificerare tränas på dessa profiler och de automatiskt tilldelade ingredienskategorierna. Författarna testade flera algoritmer på mer än 18 000 mjöllistor och fann att en logistisk regressionsmodell, en relativt enkel metod, gav den bästa balansen mellan hastighet och noggrannhet.

Hur väl systemet fungerar — och varför det slår generell AI

På mjöldata insamlad från stora kinesiska plattformar uppnådde den ingrediensbaserade klassificeraren omkring 91 procent korrekthet totalt. Den var särskilt stark på att känna igen vanliga mjölsorter, såsom standardvete och klibbigt rismjöl, och klarade sig fortfarande hyfsat på knepigare kategorier som bovete och majs, där produkter ofta blandar spannmål. Tillägget av den domänspecifika ordlistan förbättrade tydligt resultaten jämfört med att enbart använda generiska textfunktioner. Teamet jämförde också sin metod med en stor generisk språkmodell som fick utföra samma uppgift utan förhandsinlärning på datasetet. Den nollskottsmodellen halkade efter, särskilt på mer sällsynta mjölsorter, vilket belyser fördelen med att kombinera expertkunskap med målinriktad maskininlärning i stället för att enbart lita på bred men ytlig språkförståelse.

Vad detta innebär för näthandel och bortom

Enkelt uttryckt visar studien att e‑handelsplattformar automatiskt kan omgruppera artiklar efter vad de är gjorda av, inte bara efter vad de används till. Genom att koda in expertkunskap om ingredienser i en återanvändbar karta och låta produktsidor märka sig själva minskar tillvägagångssättet kraftigt behovet av manuell märkning samtidigt som hög noggrannhet bibehålls. För handlare och analytiker öppnar detta möjligheter till renare försäljningsstatistik, bättre kvalitetskontroll och mer precisa åtgärder vid frågor som spårning av allergener eller näringstrender. Även om det demonstrerats på mjöl kan receptet — expertbyggda ontologier plus självmarkerande regler och lätta klassificerare — anpassas till många andra produktkategorier där råvarorna verkligen spelar roll.

Citering: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2

Nyckelord: e‑handelsklassificering, produktingredienser, självövervakad inlärning, domänontologi, textutvinning