Clear Sky Science · pl

Automatyczna metoda klasyfikacji surowców towarów e‑commerce poprzez wprowadzenie koncepcji samo-nadzorowanych i budowę ontologii dziedzinowej

· Powrót do spisu

Dlaczego ważne jest sortowanie produktów online według składników

Kupując mąkę lub przekąski w internecie, zwykle szukasz według funkcji produktu — mieszanka do ciasta, mąka do chleba, składniki do pieczenia. Firmy, regulatorzy, a nawet świadomi zdrowotnie konsumenci częściej jednak interesują się tym, z czego produkty są wykonane. Obecne serwisy e‑commerce rzadko porządkują towary według surowców, a ręczne uporządkowanie oznaczałoby sprawdzenie milionów stron ofert pojedynczo. W badaniu zaproponowano automatyczny sposób pogrupowania produktów online według ich podstawowych składników, wykorzystując połączenie wiedzy ekspertów i uczenia maszynowego.

Problem pomieszanych półek produktowych

Duże platformy e‑commerce wystawiają miliony pozycji i zwykle porządkują je ze względu na funkcję: „mieszanka do pieczenia” czy „przekąska”, a nie według pszenicy, gryki czy kukurydzy. W efekcie dwie mąki z tego samego ziarna mogą trafić do różnych kategorii, podczas gdy produkty o różnych składnikach znajdą się razem, bo służą podobnym celom. To wygodne dla kupujących, ale uciążliwe dla sprzedawców i analityków, którzy chcą śledzić sprzedaż czy jakość według surowca. Istniejące metody automatycznej klasyfikacji w dużej mierze kopiują etykiety platformy i wymagają wielu ręcznie oznaczonych przykładów, co jest kosztowne i nie rozwiązuje widoku opartego na składnikach potrzebnego biznesowi.

Figure 1
Figure 1.

Budowa inteligentnej mapy składników produktów

Naukowcy zaczęli od poproszenia ekspertów dziedzinowych o zaprojektowanie uporządkowanej „mapy” świata mąk, zwanej ontologią dziedzinową. Mówiąc prościej, to starannie sporządzona lista typów mąk — takich jak pszenna, pełnoziarnista, kukurydziana, gryczana, ryżowa i kleista (glutinous) — oraz kluczowych cech je wyróżniających, w tym surowe ziarno, siła glutenu, klasa jakości, marka i miejsce pochodzenia. Z realnych stron produktowych na kilku chińskich platformach zespół zebrał następnie tysiące konkretnych fraz odpowiadających tym cechom, takich jak nazwy marek czy typowe sformułowania dotyczące pochodzenia. Wykorzystali reguły dopasowania wzorców i miarę odległości między ciągami znaków, aby wychwycić literówki i synonimy, np. nieznacznie różne nazwy tego samego rodzaju mąki, i włączyli je do specyficznej dla dziedziny listy słów.

Pozwalanie danym etykietować same siebie

Następnie autorzy zaadaptowali ideę uczenia samo‑nadzorowanego: zamiast prosić ludzi o oznakowanie każdego przykładu, pozwolili danym tworzyć wiele własnych etykiet. Korzystając z ontologii i listy słów, napisali reguły określające, jak cechy składników powinny pasować do kategorii. Jeśli szczegóły oferty wyraźnie wskazują na kukurydzę jako główne ziarno, a pozostałe cechy odpowiadają profilowi mąki kukurydzianej, system traktuje tę ofertę jako „standardowy” przykład mąki kukurydzianej i automatycznie akceptuje przypisaną kategorię. Oferty, których atrybuty kłócą się z regułami ekspertów lub są zbyt niejasne, oznaczane są jako „niestandardowe” i odkładane jako przypadki nieoznakowane. W ten sposób model pozyskuje tysiące czystych przykładów treningowych bez ręcznej inspekcji, bezpośrednio z chaotycznych danych katalogowych.

Figure 2
Figure 2.

Nauczanie klasyfikatora rozpoznawania surowców

Mając standardowe przykłady, system przekształca tekst każdej oferty w cechy zrozumiałe dla maszyny. Wykorzystuje potężny model językowy pierwotnie opracowany dla tekstu chińskiego, aby wyodrębnić ważne byty, takie jak marki, nazwy składników i miejsca pochodzenia, i dodaje je do listy słów dziedzinowych. Tokenizer dzieli tytuły i opisy produktów na sensowne fragmenty, usuwa powszechne słowa wypełniające i buduje numeryczny profil tego, jak rozpoznawalne jest każde wyrażenie w całym zbiorze danych. Klasyczne klasyfikatory uczenia maszynowego trenuje się na tych profilach i automatycznie przypisanych kategoriach składnikowych. Autorzy przetestowali kilka algorytmów na ponad 18 000 ofert mąk i stwierdzili, że regresja logistyczna, stosunkowo prosta metoda, zapewniła najlepszy kompromis między szybkością a dokładnością.

Jak dobrze działa system — i dlaczego przewyższa ogólne AI

Na danych mącznych zebranych z głównych chińskich platform klasyfikator oparty na składnikach osiągnął około 91 procent dokładności ogólnej. Szczególnie dobrze radził sobie z rozpoznawaniem powszechnych mąk, takich jak standardowa pszenna i mąka kleista, a także w miarę przyzwoicie z trudniejszymi kategoriami, takimi jak mąka gryczana i kukurydziana, gdzie produkty często są mieszankami zbóż. Dodanie listy słów specyficznej dla dziedziny wyraźnie poprawiło wyniki w porównaniu z użyciem jedynie standardowych cech tekstowych. Zespół porównał także swoją metodę z dużym ogólnego przeznaczenia modelem językowym poproszonym o wykonanie tego samego zadania bez wcześniejszego treningu na tym zbiorze. Model zero‑shot pozostał w tyle, zwłaszcza dla rzadszych typów mąk, co podkreśla zaletę łączenia wiedzy ekspertów ze skierowanym uczeniem maszynowym zamiast polegać wyłącznie na szerokim, lecz płytkim rozumieniu języka.

Co to znaczy dla zakupów online i nie tylko

Mówiąc prosto, badanie pokazuje, że platformy e‑commerce mogą automatycznie pogrupować przedmioty według tego, z czego są wykonane, a nie tylko według ich zastosowania. Poprzez zakodowanie wiedzy ekspertów o składnikach w wielokrotnego użytku mapie i pozwalanie stronom produktowym na samodzielne etykietowanie, podejście to znacznie zmniejsza konieczność ręcznego tagowania przy zachowaniu wysokiej dokładności. Dla sprzedawców i analityków otwiera to drzwi do czystszych statystyk sprzedaży, lepszej kontroli jakości i precyzyjniejszych reakcji na problemy takie jak śledzenie alergenów czy trendy żywieniowe. Chociaż zaprezentowano je na przykładzie mąki, przepis — ontologie budowane przez ekspertów plus reguły samoetykietowania i lekkie klasyfikatory — można zaadaptować do wielu innych kategorii produktów tam, gdzie surowce naprawdę mają znaczenie.

Cytowanie: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2

Słowa kluczowe: klasyfikacja e‑commerce, składniki produktu, uczenie samo-nadzorowane, ontologia dziedzinowa, eksploracja tekstu