Clear Sky Science · zh

用于共聚类的自监督非支配排序模型

2026-03-04 · 返回目录

在复杂数据中发现隐含群体

现代数据表——例如用户的电影评分、病人的基因表达或顾客的商品购买记录——往往庞大且错综复杂，很难看出明确模式。本文提出了一种揭示此类隐含结构的新方法，称为用于共聚类的自监督非支配排序模型（SNSC）。SNSC并不只是对人或物品单独分组，而是同时寻找两者的有意义分组，揭示哪些行子集和列子集真正属于同一类。对于关心更智能的算法如何从现有数据中挖掘更多洞见的读者来说，这项工作展示了如何将进化思想、自监督学习和多目标优化结合成一个强有力的工具。

为何同时分组行和列很重要

传统的聚类方法通常只对表格中的相似行进行分组——例如具有相似购买习惯的顾客——并把所有列视为同等重要。共聚类更进一步：它同时对行和列进行分组，从而发现特定行子集在特定列子集上表现相似的数据块。这种“二重分组”常常能揭示更清晰、更有用的模式，例如社交网络中的群体或图像中的分段。然而，大多数现有方法试图将这个自然多面的任务压缩为单一目标，这可能会简化现实，并使结果质量对任意权重选择高度敏感。

把共聚类转化为多个目标同时优化

作者将共聚类视为一个真正的多目标任务。他们的SNSC模型同时优化四个目标：样本的紧密度、特征组的分离度，以及两者与直接从数据中学习到的相似性信息的一致性。SNSC并不使用人工提供的标签，而是基于原始数据空间中样本与特征的接近程度构建两张相似性图——一张针对样本，一张针对特征。这些图作为一种内在引导：在原始数据上看起来相似的样本或特征会被温和地鼓励落入同一簇，而不将方法变成完全监督的系统。通过在全局结构与这些局部提示之间取得平衡，SNSC旨在找到既紧凑又忠实于数据内部几何结构的簇。

让进化搜索更好的分组

为了在庞大的可能分组空间中导航，作者依赖一种受自然选择启发的遗传算法。每个候选解都编码了样本和特征到簇的完整分配。一组这样的候选解在多代中演化：有前景的解被组合并做轻微扰动，而效果较差的被淘汰。关键在于，SNSC使用一种称为非支配排序的技术，它不会将四个目标合并成单一分数。相反，它保留一组“非支配”解，其中没有一个在所有目标上都严格劣于另一个。目标空间中的参考点有助于保持解的多样分布，从而避免算法陷入狭窄的可能性区域。

在无标签情况下学习良好的起点

SNSC的一个关键创新在于如何初始化这一进化搜索。模型没有从纯随机猜测开始，而是采用一种混合策略。初始解的一半是随机生成的，提供广泛的探索；另一半则通过对数据及其转置应用标准聚类方法（如k均值、模糊聚类及相关技术）生成。这些“自举”候选解作为从数据本身派生的自监督提示，通常使进化过程从更接近有用模式的起点开始。实验证明，这种随机性与自监督的结合既提高了鲁棒性，又降低了陷入差的局部最优的风险。

在真实数据集上的测试及其意义

作者在十四个来自图像、多媒体和经典机器学习集合的真实数据集上评估了SNSC，并将其与几种知名的共聚类方法进行了比较。使用常用的聚类质量指标，如准确率和平方误差和的变体，SNSC经常优于替代方法，并在许多数据集上表现出统计显著的提升。尽管它不是最快的方法——其遗传搜索和相似性构建在计算上更为繁重——但它提供了一致强劲、稳定的结果，表明当质量比计算速度更重要时，它尤为适用。

更清晰的模式与计算代价

简而言之，论文表明将共聚类视作多目标问题，并让进化过程搜索均衡解，可以在复杂数据表中发现更清晰、更可靠的模式。自监督相似性图帮助算法利用数据中已存在的结构，而无需人工标签。代价是计算开销：SNSC比更简单的方法需要更多时间和资源，尤其是在非常大的数据集上。作者建议未来的工作应着重提高可扩展性，例如加速遗传搜索或并行运行。即便如此，对于那些在两类实体间理解复杂关系至关重要的应用，SNSC提供了一种有前景且细致的方式，在表面混乱中看到秩序。

引用: Li, X., Wang, H., Yang, W. et al. Self-supervised non-dominated sorted model for co-clustering. Sci Rep 16, 12088 (2026). https://doi.org/10.1038/s41598-026-42498-9

关键词: 共聚类, 多目标优化, 自监督学习, 遗传算法, 数据挖掘