Clear Sky Science · zh
一种中立谱聚类方法以应对灰羊用户的推荐不确定性
为什么有些人会收到奇怪的推荐
流媒体和购物平台常常让人感觉“了解”我们,但对许多人来说,推荐仍然偏离实际偏好。本文关注一类难处理的用户——他们的口味不符合主流群体——并展示了接受不确定性而非忽视它,如何显著改善这类用户的推荐效果。
让推荐引擎困惑的那些用户
大多数推荐系统从群体模式中学习:“和你相似的人也喜欢这些电影、书或歌曲。”当你的喜好与大多数人相似时,这种方法很有效。但有些人,被称为“灰羊”用户,既喜欢主流内容又喜欢非主流内容的混合,无法清晰归入任一群体。他们的评分分散,系统难以找到可靠的邻居,导致推荐往往不准确或不稳定。稀疏数据使问题更严重:在典型的电影数据集中,超过90%的用户–电影组合没有评分,因此灰羊用户在噪声中实际上会被淹没。

把不确定性变成有用信号
作者提出直接应对这种混乱,通过显式对用户行为中的不确定性建模。他们使用一种称为“中立谱(neutrosophic)”的逻辑框架,将每个用户对某个簇的归属表示为三个部分:匹配程度(真)、匹配的不明朗性(不确定)以及不属于该簇的明确程度(伪)。与其强行把每个人归入单一的清晰组别,他们的中立谱k均值聚类允许用户具有部分乃至模糊的成员关系。整体模糊性最高的簇被视为“灰羊”组:这些人品味难以固定,但不能被忽视。
为推荐开辟双通道路径
将用户分为主流簇和灰羊簇后,系统会区别对待。对典型用户,使用标准的基于物品的协同过滤方法:基于用户对物品的评分比较物品之间的相似性,然后为用户推荐与其已有偏好相似的项目。对灰羊用户,同样采用基于物品的方法,但仅在经过不确定性感知的聚类步骤精确分离后才应用。这一额外步骤确保在寻找模式时,系统将每个灰羊用户与反映其独特、分散偏好的物品和评分模式进行比较,而不是在多数人中被平均掉。实验保持推荐设置不变,因此任何性能提升都可归因于更好地识别灰羊用户,而非调参技巧。

实际提升有多大?
作者在知名数据集上测试了他们的框架:电影(MovieLens 100K 和 1M),并扩展到图书(Book‑Crossing)和音乐(Last.fm)。与一种流行的软聚类方法(模糊c均值)及若干先进的混合聚类方法相比,他们的中立谱方法在预测误差更低并且在挑选灰羊用户真正喜欢的项目方面成功率更高。例如,在 MovieLens 100K 数据集上,灰羊簇的精确率和召回率分别约为89%和91%,且评分误差明显更小。该方法在专门对灰羊用户评估时,也优于若干深度学习推荐器,尽管其架构更简单、更透明。关键优势并非单纯的计算能力,而是将不确定性作为一等信号的显式处理。
这对日常用户意味着什么
简单来说,这项工作表明,承认“我对这个用户不确定”比假装不确定性不存在更有价值。通过为那些口味不符合标准模版的人开辟专门通道,所提出的系统能够重新覆盖被忽视的用户群,并为他们提供更准确、多样且令人满意的推荐。尽管当前研究侧重于评分而非丰富的文本或图像内容,并且主要关注灰羊而非所有用户,但它提供了一个实用方案:构建能检测模糊性的推荐流程,显式处理这种模糊性,并用它来指导推荐生成。对任何曾想过“这些推荐并不属于我”的人来说,这一转变有望让未来的系统更具个性化与公平性。
引用: Samir, D., El Reheem, E.A., Darwish, S.M. et al. A neutrosophic clustering approach to handle recommendation uncertainty for gray sheep users. Sci Rep 16, 9663 (2026). https://doi.org/10.1038/s41598-026-41651-8
关键词: 推荐系统, 灰羊用户, 不确定性建模, 中立谱聚类, 协同过滤