Clear Sky Science · zh

将机器学习技术整合用于复杂网络中关键节点的识别

· 返回目录

为何识别网络中的关键点很重要

从社交媒体与航线到电力网和电子邮件系统,许多现代生活的部分都可以视为网络。在这些连接的网格中,有些点——人、机场、发电站或计算机——比其他点重要得多。识别这些关键点可以帮助我们减缓疫情传播、保护基础设施并高效传播信息。本文探讨了现代机器学习如何在检测这些关键位置方面优于传统方法,尤其是在网络中存在主动传播过程时。

识别重要点的传统方法

几十年来,研究者使用称为中心性度量的简单结构得分来判断网络中哪些节点最重要。这些得分考察诸如节点的直接连接数、它与所有其他节点的距离或其在节点对之间最短路径中出现的频率等特征。尽管有用,这些度量也有不足之处。有些仅关注节点的直接邻域而忽视整体格局;另一些虽然考虑整个网络,但随着网络规模增长计算代价很高。更重要的是,它们假设仅凭节点的结构位置就能判断其在真实传播过程(如疾病暴发或信息病毒式传播)中的影响力。

将传播行为纳入考量

为弥合这一差距,作者明确模拟了事物如何在网络中传播,并利用这些结果教机器学习模型识别真正有影响力的节点。他们依赖两种常见的类流行病模型。在一种模型中,每个节点可以处于易感、感染或恢复状态,感染以给定概率沿链接传播;另一种模型中,每个新感染的节点只有一次机会去感染其邻居。通过对每个起始节点重复模拟这些过程,作者测量出每个节点可能引发的爆发规模。随后将这些爆发规模转换为一组标签,将节点分为数个影响力等级,从弱传播者到极强传播者。

教会机器识别关键节点

在每个节点都有标签后,作者构建了一个将结构信息与传播条件混合的特征简介。对于每个节点,他们收集标准的中心性得分——反映局部连通性、全局位置以及邻居的强度——并且还包括模拟中使用的感染率。为了适应不同规模的网络,这些数值都进行了归一化处理。拿到这个带标签的数据集后,他们训练了一系列现成的机器学习模型,包括决策树、随机森林、支持向量机、逻辑回归、k近邻和神经网络。他们还设计了一种混合方法:先用K均值将具有相似特征的节点聚类,然后在每个簇内分别训练支持向量分类器。这种混合方法旨在捕捉细微的、非线性的模式,同时不过度被整个网络的复杂性所淹没。

Figure 1
Figure 1.

将方法付诸检验

作者在七个真实网络上评估了他们的框架,涵盖航线、道路系统、科学合作、 生物网络和电子邮件交流。他们在两种主要设置下将机器学习模型与经典的中心性得分进行比较。第一种设置中,模型在同一网络的不同部分上训练和测试。在这里,混合的聚类加分类方法持续取得最高的准确率、精确率、召回率和F1分数,在将节点分类为影响力等级时,常常比传统中心性高出15–45个百分比点。第二种设置中,模型在一个网络上训练并在另一个网络上测试。在这个更具挑战性的跨网络场景中,基于介数的经典得分往往优于机器学习模型,这表明在一种结构中学到的模式并不总是能干净地迁移到另一种结构中。

Figure 2
Figure 2.

实践中的意义

对于可以在特定网络上运行详尽模拟的情况——例如某一特定电网、社交平台或交通系统——所提出的机器学习框架比单靠结构更准确且更具可扩展性来定位最有影响力的节点。通过将节点的连线方式与实际的传染流动相结合,并使用聚类与分类的智能混合,该方法能更可靠地标出那些其失效或激活会产生最大影响的少数元素。与此同时,结果也提醒我们没有一种模型能在所有场景中都最好:当必须在没有新模拟的情况下从一个网络泛化到另一个网络时,简单的基于结构的得分仍可能更可取。

引用: ReddyPriya, M., Enduri, M.K., Hajarathaiah, K. et al. Integrating machine learning techniques for critical node identification in complex networks. Sci Rep 16, 8929 (2026). https://doi.org/10.1038/s41598-026-40778-y

关键词: 影响力节点, 复杂网络, 机器学习, 流行病传播, 网络中心性