Clear Sky Science · zh
具政策意识的GPU资源分配用于国家超级计算
为什么超级计算机需要的不仅仅是速度
在当今人工智能、气候建模和新材料等突破性进展的背后,有一台不太显眼的主力:配备强大图形处理单元(GPU)的国家级超级计算机。这些机器的需求如此之大,以至于并非所有人都能按需获得使用时间。本文提出了一个看似简单但对科学政策影响深远的问题:我们是否可以不让这些珍贵的GPU主要落到“声量最大者”手中,而是以一种既反映国家战略优先事项又不浪费容量或延缓研究的方式来分配它们?

先到先得式算力的问题
当今大多数大型计算中心采用的调度规则侧重于保持机器繁忙并高效清理作业队列。美国、欧洲、日本等地的系统通常偏好运行时间长、规模大的工作负载,因为这些可以维持高利用率并使调度更可预测。但这种以需求为导向的方法会产生一种隐性偏向:那些已经产生大量GPU作业的领域——例如某些计算机科学的分支——往往会占据越来越大的份额,而一些战略上重要但GPU强度较低的领域,如部分材料科学或地球科学,可能被挤出。随着对GPU小时的竞争加剧,以及各国将超级计算与经济和安全目标更加紧密地关联,这种不平衡不仅是技术问题,更成为公共价值与公平性的议题。
把政策目标纳入数学模型
该研究提出了一个框架,把政策优先级直接嵌入指导GPU分配的公式中。与其把政策当作事后补救(例如通过人工设定上限或配额),作者定义了一个“政策目标向量”,即每个科学领域所期望获得的GPU资源百分比份额。这个目标由三部分构成:国家研究支出结构、官方强调的优先领域以及历史GPU使用情况,并均衡混合以避免单一因素主导。然后,对每个领域,框架分析其在系统上作业的真实行为——运行时长以及极长作业出现的频率——并将这些特征概括为简单的数值画像。
在需求与公平之间寻找最佳平衡点
利用这些画像,框架为每个领域构建了两个信号:一个衡量其使用模式与系统总体行为的相似度,另一个反映其使用GPU的强度。这两个信号通过两项可调权重进行组合,权重可以调整以强调结构适配或原始需求。通过在历史数据上搜索多种可能的权重组合,模型找到了一对最能匹配政策目标的权重。在使用韩国Neuron系统和美国某超级计算中心日志的测试中,优化的组合更偏向需求,但仍在有意义上向政策目标倾斜。即便只是这个静态估计器,就显著降低了期望与预测分配之间的不匹配,尽管某些领域——例如材料科学——仍明显供给不足。

用于实时共享的智能反馈回路
为弥补这种差距,研究增加了第二层:一个在系统运行时起作用的动态控制器。时间被划分为短时窗,在每个时窗内控制器检查某一领域的需求是否超过了其政策份额和其近期历史合理支撑的双重上限。当一个领域试图超出这个有效上限使用资源时,多出的部分被视为可回收的盈余。那些被回收的GPU“切片”随后按各领域的欠缺程度重新分配给那些未达到目标的领域。这个封顶并再分配的过程随时间重复,形成一个反馈回路,稳步将实际分配推向政策向量,同时保持机器接近满负荷运行。
测试对性能与稳定性的说明
对一周的现实需求模式进行仿真显示,这种组合方法能显著缩小与政策目标的差距:平均分配误差从约8%降至略高于1%,在更严格的误差度量上也有类似改善。重要的是,这些收益并未以浪费容量或增加排队为代价。GPU利用率保持在92%以上,吞吐量与标准调度器相当,等待时间没有增加。在一域故意夸大需求(无论是突发峰值还是持续平台期)的压力测试中,控制器能抵抗这类策略性行为,使误差相比不受控基线减少大约40%至45%。对关键参数的敏感性检查表明,该行为在合理参数范围内保持稳定。
这对共享计算的未来意味着什么
通俗地说,文章表明我们不必在高速高效的超级计算机和周到的国家战略之间做出选择。通过将政策目标编码为明确的数值目标,并将其融入规划与实时控制中,所提出的框架提供了一种办法,可在不拖慢机器或让研究人员陷入繁琐手续的情况下,将GPU时间引导至一个平衡的科学领域组合。尽管该工作仅在单一系统的仿真中演示并假定了固定的政策目标,但它指向了一个未来:国家级计算中心不仅是强大的计算器,还是经精心调校的科技战略工具。
引用: Shim, H. Policy-aware GPU resource allocation for national supercomputing. Sci Rep 16, 12438 (2026). https://doi.org/10.1038/s41598-026-42625-6
关键词: GPU 调度, 超级计算政策, 资源分配, 科学基础设施, 人工智能计算