Clear Sky Science · zh

一种利用领域自适应 RoBERTa 嵌入以增强电子商务个性化的混合推荐框架

2026-03-22 · 返回目录

更智能的购物建议

任何在网上购物的人都见过那些看起来出奇地贴切的商品推荐——或者，同样常见的是，完全不对味的推荐。本文探讨了一种新的构建推荐系统的方法，使其更好地理解产品真实的含义和人们真正的偏好，即便初始数据很少。目标是让“你可能也喜欢”这样的列表对日常购物者更准确、更具多样性且更值得信赖。

为何线上推荐常常偏离目标

传统推荐系统依赖两大技巧。一种是将你与过去行为类似的人进行比较，推荐他们喜欢的物品；另一种则基于产品特征——如类别、品牌或简单关键词——并将其与你已知的偏好匹配。当数据稀少、新用户或新产品出现（“冷启动”问题）或你的品味随时间变化时，这些方法就会失效。许多先进的“混合”系统试图结合多种信号，但在面对数百万用户和商品时，这些系统往往变得复杂、缓慢且难以解释。

将语言理解引入推荐

作者提出了一个名为 HyReC 的框架，大力依赖人们描述产品的方式。它使用了一个强大的语言模型 RoBERTa，并在电子商务文本上进一步训练，使其在婴儿用品领域的评论和商品描述上变得“通顺”。该模型将原始文本——标题、描述和热门评论——转换为捕捉意义与情感的稠密数值指纹，例如人们是否称赞耐用性、抱怨渗漏或提到易用性。这些内容指纹帮助 HyReC 识别即便品牌名称或措辞略有不同的两个产品也具有相似之处。

融合行为、习惯与意见

单凭文本还不够，因此 HyReC 也从用户的实际行为中学习。一个深度神经网络分析哪些用户给哪些商品评分的模式，发现隐藏的关联——例如，喜欢某些婴儿车的人也倾向于喜欢特定的汽车儿童座椅。此外，系统计算一些简单且可解释的统计量，比如每个用户的平均评分、他们是挑剔还是宽容、互动频率以及评分是否偏向极高或极低。同样的统计数据也会为商品计算。这些行为摘要有助于系统推理那些评分很少的用户或刚出现的商品，从而缓解冷启动问题。

让模型决定最重要的因素

HyReC 的关键创新在于如何融合这些不同信号。它并非简单地将所有数值堆叠在一起，而是使用一种“注意力”机制来学习在每个用户—商品对上如何不同地权衡内容、协同模式和行为统计。对于某位购物者，评论文本可能占据大多数权重；对另一位用户，则可能由过去的评分模式主导。模型随后将这种混合表示输入到一个专门设计用于排序候选商品的排序层，使最相关的商品排到前面。训练采用针对排序任务调整的优化技术，这有助于系统在现实世界的“Top-K”推荐列表上表现良好，而不仅仅是原始评分预测。

在真实购物数据上验证方法

为测试 HyReC，作者使用了包含超过 56,000 条评论、覆盖数千用户和商品的亚马逊婴儿用品数据集。他们将模型与几种现代基线方法比较，包括深度学习和基于图的方法。HyReC 显著降低了预测误差，与实际用户评分的吻合度接近完美，并且在作为排序系统评估时实现了很高的召回率和 F1 分数。进一步的实验表明，移除任何一个组成部分——文本嵌入、协同信号、行为统计、注意力或排序层——都会明显损害性能，凸显出每一部分都起着独特且重要的作用。

这对普通用户意味着什么

简而言之，这项工作表明，通过结合人们所说的内容、他们的行为以及随时间形成的习惯，推荐系统可以变得更智能、更透明，而不必依赖单一信息源。对于购物者来说，这可能意味着更相关的建议、更好地发现新产品或小众产品，以及在浏览时更少令人沮丧的错误推荐。对于企业而言，它提供了一种可扩展的方法来处理稀疏数据和变化的偏好，而不会将系统变成黑箱。作者建议未来的扩展可以引入更丰富的信号——例如图像或长期反馈回路——以使在线个性化更接近一个细致入微的人工销售员指导你的选择的方式。

引用: Rajpoot, C.S., Tiwari, V. & Vishwakarma, S.K. A hybrid recommendation framework utilizing domain-adaptive RoBERTa embeddings for enhanced personalization in e-commerce. Sci Rep 16, 14541 (2026). https://doi.org/10.1038/s41598-026-38853-5

关键词: 推荐系统, 电子商务个性化, 混合推荐, 深度学习, 用户行为