Clear Sky Science · zh

HyMSS-GAD:一种结合结构、上下文与几何推理的多视图混合多阶段图异常检测框架

· 返回目录

为什么识别网络中的异常模式很重要

从社交媒体和购物网站到金融系统与生物学,如今大量数据都可以用网络来描述:点(节点)由线(边)连接。在这些网状结构中,隐藏着稀有且异常的模式,可能指示欺诈、网络攻击、错误的科学记录或意外的科学发现。本文提出了 HyMSS-GAD,一种通过同时结合三种不同“观察”网络的方式来寻找此类异常的方法:节点的属性、它与其他节点的连线方式,以及它在网络整体形状中的位置。这种组合旨在捕捉旧有工具容易漏掉的微妙预警信号,并解释为何某个节点被标记为可疑。

Figure 1
Figure 1.

从多个视角观察网络

传统的图异常检测方法通常假定相连的节点是相似的。这种“物以类聚”的规则在某些社交或引文网络中成立,但在许多真实系统中,当连接将非常不同类型的实体串联起来时就会失效。旧模型也往往只关注连接模式或节点属性中的一种,而不是两者并重,并常常将所有信息压缩为单一视图。HyMSS-GAD 从这样一个想法出发:异常在多个视图之间的不一致中显现——节点的描述性特征、它在局部连线模式中的位置,以及它在网络整体形状中的角色。

学习内容与邻域何时不一致

HyMSS-GAD 的第一阶段用于发现“上下文”异常:其内容与邻居所暗示的不匹配的节点。对于每个节点,该方法构建一个以其为中心的小局部网络,然后学习两种并行的描述:一种基于其属性(例如论文中的词或产品详情),另一种基于其连接方式。一个自监督学习机制鼓励这两种描述在正常节点上趋于一致,而在异常节点上出现不一致,无需标签样本。节点与其邻域之间的大幅不匹配会转化为数值残差,表明上下文异常。

解读连线中的小模式

第二个视图聚焦于图的细粒度结构。不仅仅统计节点有多少邻居,HyMSS-GAD 测量它在三角形、星形或短环等小型连线基元中出现的频率。这些计数形成每个节点的“基元剖面”。一个紧凑的神经网络学习典型的基元剖面并尝试重构它们;那些基元剖面难以被重构的节点会得到较高的结构残差。这可以捕捉节点扮演奇异结构角色的情形——例如在高度聚集的区域中出现在过少的三角形中,或形成与周围不匹配的罕见连接模式。

Figure 2
Figure 2.

追踪网络的曲率

超越局部邻域,该方法使用一种称为曲率的概念来检查网络的更广泛“形状”。简单来说,曲率衡量的是两个相连节点是否处在相似或截然不同的环境中。处于紧密社区内部的边通常具有较高的曲率,而连接不同区域或位于边界的边则具有较低甚至负的曲率。HyMSS-GAD 学习从其融合的节点描述中重构预先计算的曲率值。当无法准确重构围绕某节点的边的曲率时,该节点会得到较高的几何残差,将其标记为可能的桥接点、瓶颈或边界节点,这些节点不符合通常的全局模式。

将线索汇聚在一起

为了避免在任何位置都把每种信号视为同等重要,HyMSS-GAD 使用注意力机制,允许每个节点在曲率步骤之前“决定”在多大程度上给予上下文信息与结构信息权重。最后,该方法将三种残差——上下文、结构和几何——组合成单一的异常得分。关键是,它还保持这些组件的独立性,以便分析者能够看出某个节点主要是因内容不匹配、连线异常还是几何位置异常而被标记。在包括引文和电子商务图在内的若干标准数据集上的测试表明,这种多视图、基于残差的方法不仅优于领先替代方法,而且能更清晰地解释为何某些节点突出。

引用: Khan, W., Ebrahim, N., Elloumi, M. et al. HyMSS-GAD: a hybrid multi-stage framework for multi-view graph anomaly detection with structural, contextual, and geometric reasoning. Sci Rep 16, 12108 (2026). https://doi.org/10.1038/s41598-026-42823-2

关键词: 图异常检测, 网络分析, 机器学习, 图神经网络, 多模态数据