Clear Sky Science · pt

Uma estrutura híbrida de recomendação utilizando embeddings RoBERTa adaptados ao domínio para personalização aprimorada no comércio eletrônico

2026-03-22 · Voltar ao índice

Sugestões de Compra Mais Inteligentes

Qualquer pessoa que faz compras online já viu sugestões de produtos que parecem incrivelmente acertadas — ou, com a mesma frequência, totalmente fora do contexto. Este artigo explora uma nova maneira de construir sistemas de recomendação para que eles entendam melhor tanto o que os produtos realmente representam quanto o que as pessoas genuinamente gostam, mesmo quando há poucos dados iniciais. O objetivo é tornar aquelas listas “Você também pode gostar” mais precisas, mais diversificadas e mais confiáveis para consumidores comuns.

Por que as Escolhas Online Muitas Vezes Erram

Os sistemas de recomendação tradicionais dependem de duas estratégias principais. Uma compara você a pessoas que se comportaram de modo parecido no passado, sugerindo itens de que elas gostaram. A outra analisa características do produto — como categoria, marca ou palavras-chave simples — e as relaciona às suas preferências conhecidas. Essas abordagens falham quando os dados são escassos, quando surgem novos usuários ou produtos (o problema do “cold-start”) ou quando seus gostos mudam ao longo do tempo. Muitos sistemas avançados “híbridos” tentam combinar vários sinais, mas frequentemente ficam complexos, lentos e difíceis de interpretar, especialmente ao lidar com milhões de usuários e itens.

Integrando Compreensão de Linguagem às Recomendações

Os autores propõem uma estrutura chamada HyReC que se apoia fortemente em como as pessoas descrevem produtos. Ela utiliza um poderoso modelo de linguagem, RoBERTa, que foi adicionalmente treinado em textos de comércio eletrônico para se tornar “fluente” em avaliações e descrições de produtos do domínio de artigos para bebês. Esse modelo converte texto bruto — títulos, descrições e principais avaliações — em representações numéricas densas que capturam significado e sentimento, como se as pessoas elogiam a durabilidade, reclamam de vazamentos ou mencionam facilidade de uso. Essas impressões de conteúdo ajudam o HyReC a reconhecer que dois produtos são semelhantes mesmo que tenham marcas diferentes ou redações ligeiramente distintas.

Misturando Comportamento, Hábitos e Opiniões

O texto sozinho não é suficiente, então o HyReC também aprende a partir do comportamento real dos usuários. Uma rede neural profunda analisa padrões de quais usuários avaliaram quais itens, descobrindo conexões ocultas — por exemplo, que pessoas que gostam de certos carrinhos de bebê também tendem a gostar de determinados assentos para automóveis. Além disso, o sistema calcula estatísticas simples e interpretáveis, como a avaliação média de cada usuário, o quanto ele é exigente ou generoso, com que frequência interage e o quanto suas avaliações se concentram em notas muito altas ou muito baixas. Estatísticas similares são calculadas para os produtos. Esses resumos comportamentais ajudam o sistema a raciocinar sobre usuários com poucas avaliações ou itens recém-chegados, amenizando problemas de cold-start.

Deixando o Modelo Decidir o que Importa Mais

A inovação chave no HyReC é como ele funde esses diferentes sinais. Em vez de simplesmente empilhar todos os números, usa-se um mecanismo de “atenção” que aprende a ponderar conteúdo, padrões colaborativos e estatísticas comportamentais de forma diferente para cada par usuário–produto. Para um comprador, o texto das avaliações pode carregar a maior parte do peso; para outro, padrões de avaliações passadas podem predominar. O modelo então alimenta essa representação combinada em uma camada de ranqueamento projetada especificamente para ordenar itens candidatos de modo que os mais relevantes subam ao topo. O treinamento é feito com técnicas de otimização afinadas para tarefas de ranqueamento, o que ajuda o sistema a ter bom desempenho em listas de recomendação “Top-K” do mundo real em vez de apenas em previsões brutas de nota.

Validando a Abordagem com Dados Reais de Compras

Para testar o HyReC, os autores utilizam um conjunto de dados da Amazon de produtos para bebês contendo mais de 56.000 avaliações distribuídas entre milhares de usuários e itens. Eles comparam seu modelo com várias linhas de base modernas, incluindo abordagens de deep learning e baseadas em grafos. O HyReC produz erros de previsão dramaticamente menores e concordância quase perfeita com as avaliações reais dos usuários, além de alcançar recall e F1 muito altos quando avaliado como um sistema de ranqueamento. Experimentos adicionais mostram que remover qualquer componente — embeddings de texto, sinais colaborativos, estatísticas comportamentais, atenção ou a camada de ranqueamento — prejudica perceptivelmente o desempenho, ressaltando que cada peça tem um papel distinto e importante.

O que Isso Significa para Usuários Comuns

Em termos claros, este trabalho mostra que sistemas de recomendação podem se tornar mais inteligentes e mais transparentes combinando o que as pessoas dizem, o que elas fazem e como tendem a se comportar ao longo do tempo, em vez de depender de uma única fonte de informação. Para os consumidores, isso pode significar sugestões mais relevantes, melhor descoberta de produtos novos ou de nicho e menos falhas frustrantes durante a navegação. Para as empresas, oferece uma forma escalável de lidar com dados esparsos e gostos mutáveis sem transformar seus sistemas em caixas-pretas. Os autores sugerem que extensões futuras poderiam incorporar sinais ainda mais ricos — como imagens ou ciclos de feedback de longo prazo — para aproximar a personalização online de como um vendedor humano atento orientaria suas escolhas.

Citação: Rajpoot, C.S., Tiwari, V. & Vishwakarma, S.K. A hybrid recommendation framework utilizing domain-adaptive RoBERTa embeddings for enhanced personalization in e-commerce. Sci Rep 16, 14541 (2026). https://doi.org/10.1038/s41598-026-38853-5

Palavras-chave: sistemas de recomendação, personalização em comércio eletrônico, recomendação híbrida, deep learning, comportamento do usuário