Clear Sky Science · pl

Hybrydowe ramy rekomendacji wykorzystujące adaptacyjne do domeny osadzenia RoBERTa dla lepszej personalizacji w e-commerce

2026-03-22 · Powrót do spisu

Inteligentniejsze sugestie zakupowe

Każdy, kto robi zakupy online, widział propozycje produktów, które albo trafiają w sedno, albo — równie często — są zupełnie nietrafione. Artykuł ten bada nowy sposób budowania systemów rekomendacyjnych, dzięki któremu lepiej rozumieją zarówno, o czym naprawdę są produkty, jak i co ludzie rzeczywiście lubią, nawet gdy początkowe dane są skąpe. Celem jest uczynienie list „Może spodobać Ci się też” bardziej trafnymi, bardziej zróżnicowanymi i bardziej godnymi zaufania dla przeciętnego kupującego.

Dlaczego wybory online często chybiają

Tradycyjne systemy rekomendacyjne opierają się na dwóch głównych zabiegach. Jeden porównuje Cię z ludźmi, którzy zachowywali się podobnie w przeszłości, proponując przedmioty, które im się spodobały. Drugi analizuje cechy produktu — takie jak kategoria, marka czy proste słowa kluczowe — i dopasowuje je do Twoich znanych preferencji. Podejścia te zawodzą, gdy danych jest mało, gdy pojawiają się nowi użytkownicy lub produkty (problem „cold-start”) albo gdy Twoje gusta zmieniają się w czasie. Wiele zaawansowanych systemów „hybrydowych” stara się łączyć różne sygnały, lecz często stają się wtedy skomplikowane, wolne i trudne do interpretacji, zwłaszcza przy obsłudze milionów użytkowników i produktów.

Wprowadzenie rozumienia języka do rekomendacji

Autorzy proponują ramy o nazwie HyReC, które mocno opierają się na tym, jak ludzie opisują produkty. Wykorzystuje ono potężny model językowy RoBERTa, który został dodatkowo przetrenowany na tekstach e‑commerce, aby stać się „biegłym” w recenzjach i opisach produktów z domeny artykułów dla niemowląt. Model zamienia surowy tekst — tytuły, opisy i najważniejsze recenzje — w gęste numeryczne odciski palców, które chwytają znaczenie i sentyment, na przykład czy ludzie chwalą trwałość, narzekają na przecieki lub wspominają łatwość użycia. Te treściowe odciski pomagają HyReC rozpoznać, że dwa produkty są podobne, nawet jeśli mają różne marki lub nieco inne sformułowania.

Mieszanie zachowań, nawyków i opinii

Sam tekst to za mało, więc HyReC uczy się także na podstawie rzeczywistych zachowań użytkowników. Głęboka sieć neuronowa analizuje wzorce, które użytkownicy oceniali które przedmioty, odkrywając ukryte powiązania — na przykład że osoby lubiące określone wózki często też przepadają za konkretnymi fotelikami samochodowymi. Dodatkowo system oblicza proste, interpretowalne statystyki, takie jak średnia ocena danego użytkownika, jego surowość lub pobłażliwość oceniania, częstotliwość interakcji oraz asymetria ocen w kierunku bardzo wysokich lub bardzo niskich not. Podobne statystyki obliczane są dla produktów. Te podsumowania behawioralne pomagają systemowi rozumieć użytkowników z niewieloma ocenami oraz produkty, które dopiero się pojawiły, co łagodzi problemy cold-start.

Pozwolenie modelowi zdecydować, co jest najważniejsze

Kluczową innowacją w HyReC jest sposób łączenia tych różnych sygnałów. Zamiast zwyczajnie składać wszystkie liczby razem, używa mechanizmu „uwagi” (attention), który uczy się ważenia treści, wzorców współpracy i statystyk behawioralnych w różny sposób dla każdej pary użytkownik–produkt. Dla jednego kupującego tekst recenzji może mieć największe znaczenie; dla innego dominować będą wzorce z wcześniejszych ocen. Model przekazuje następnie to zblendowane przedstawienie do warstwy rankingowej zaprojektowanej specjalnie do sortowania kandydatów, tak aby najbardziej istotne pozycje znalazły się na górze. Trening przeprowadzono z technikami optymalizacji dostosowanymi do zadań rankingowych, co pomaga systemowi dobrze radzić sobie z rzeczywistymi listami rekomendacji „Top‑K”, a nie tylko z surowymi przewidywaniami ocen.

Weryfikacja podejścia na rzeczywistych danych zakupowych

Aby przetestować HyReC, autorzy użyli zbioru danych Amazon Baby zawierającego ponad 56 000 recenzji obejmujących tysiące użytkowników i produktów. Porównali swój model z kilkoma nowoczesnymi metodami bazowymi, w tym podejściami opartymi na uczeniu głębokim i grafach. HyReC osiągnął znacznie niższe błędy predykcji i niemal doskonałą zgodność z rzeczywistymi ocenami użytkowników, a także bardzo wysoką recall i F1 przy ocenie jako system rankingowy. Dalsze eksperymenty pokazują, że usunięcie któregokolwiek komponentu — osadzeń tekstowych, sygnałów kolaboratywnych, statystyk behawioralnych, mechanizmu uwagi czy warstwy rankingowej — wyraźnie pogarsza wyniki, podkreślając, że każda część odgrywa odrębną i istotną rolę.

Co to oznacza dla zwykłych użytkowników

Mówiąc prościej, praca ta pokazuje, że systemy rekomendacyjne mogą stać się jednocześnie mądrzejsze i bardziej przejrzyste przez łączenie tego, co ludzie mówią, co robią i jak się zachowują w czasie, zamiast polegać na jednym źródle informacji. Dla kupujących może to oznaczać bardziej trafne sugestie, lepsze odkrywanie nowych lub niszowych produktów oraz mniej frustrujących nietrafień podczas przeglądania. Dla firm to skalowalny sposób radzenia sobie ze skąpymi danymi i zmieniającymi się gustami bez przemiany ich systemów w czarne skrzynki. Autorzy sugerują, że przyszłe rozszerzenia mogłyby włączyć jeszcze bogatsze sygnały — takie jak obrazy czy długoterminowe pętle informacji zwrotnej — aby przybliżyć personalizację online do tego, jak przemyślany sprzedawca kierowałby Twoimi wyborami.

Cytowanie: Rajpoot, C.S., Tiwari, V. & Vishwakarma, S.K. A hybrid recommendation framework utilizing domain-adaptive RoBERTa embeddings for enhanced personalization in e-commerce. Sci Rep 16, 14541 (2026). https://doi.org/10.1038/s41598-026-38853-5

Słowa kluczowe: systemy rekomendujące, personalizacja e-commerce, hybrydowe rekomendacje, uczenie głębokie, zachowanie użytkownika