Clear Sky Science · zh

IntelliScheduler:一种基于学习的边缘-云计算环境混合深度学习任务调度框架

· 返回目录

为什么仍要等云端处理很重要

每当智能摄像头将门口的陌生人标记出来,或联网汽车对交通作出反应时,它们都会将小型工作——“任务”——发送到互联网上某处进行处理。如果这些任务总是一路发送到远端数据中心,往返延迟对于时间敏感的操作可能会太慢。本文介绍了IntelliScheduler,一种基于学习的系统,可实时决定哪些任务应在网络边缘靠近用户处处理、哪些可以安全地送往云端,目标是在保持响应迅速的同时控制成本。

从遥远服务器到近旁助手

传统云计算因为能以低成本扩展到数百万用户,一直是在线服务的主力。但对于许多现代物联网(IoT)应用——例如工厂传感器、智能车辆或健康可穿戴设备——每一毫秒的额外延迟都可能带来影响。为减少这种延迟,企业现在在靠近用户的地方部署更小型的服务器,称为边缘服务器。这些边缘机器响应更快,但容量有限。如果过多任务被推到边缘,它们会在队列中排长队;如果过多任务被送往云端,传输时间则成为瓶颈。较早的调度方法依赖固定规则或人工设计的启发式,当工作负载飙升或网络条件快速变化时,这些方法常常失效。

Figure 1
Figure 1.

一个决定工作去向的学习大脑

作者提出了IntelliScheduler,将边缘—云系统中的任务放置问题视为学习问题,而非固定规则。在其核心是一种深度强化学习:一个人工智能代理观察系统的当前状态——边缘和云机器的繁忙程度、队列长度、到达任务的紧急性等——然后选择动作,例如将任务发送到边缘、发送到云端,或在两者之间拆分工作。每次决策后,代理会收到基于设备等待时间长短及是否错过服务截止等反馈。经过多轮试错,系统逐步学习出一种策略,倾向于最小化等待时间并保持服务级别协议(SLA)不被违反。

记住多种繁忙情形

IntelliScheduler的一项关键创新在于其如何从经验中学习。它不是将过去的情形和决策存储在一条长列表中,而是维护多个独立的记忆缓冲区。每个缓冲区收集来自不同运行条件下的样本——例如轻负载、严重拥堵或边缘使用不均等情境。在训练时,代理从所有这些缓冲区中采样,并偏重那些其过去预测误差最大的经验。这种多缓冲区设计帮助学习过程在环境变化时保持稳定,避免模型反复只从最近事件中再学时出现的振荡。支持这一方法的数学模型明确考虑了任务可被处理的三种方式:完全在云端、完全在边缘,或在资源紧张时从边缘迁移到云端的混合方式。

将框架付诸测试

为了研究IntelliScheduler的行为,研究人员构建了一个详细的边缘—云系统模拟器来运行物联网工作流。他们将其基于学习的最优任务调度(Learning-based Optimal Task Scheduling,LbOTS)算法与来自群体智能和元启发式的三种流行基于优化的调度器进行了比较。在小型、中型和大型合成工作负载下——最大可达一百万个任务——基于学习的方法在总体奖励上持续领先,该奖励信号综合了更短等待和更高的截止满足率。其训练更可靠,学习损失最多降低了三分之二,并且更高效地利用资源,估计运营成本减少了大约一半或更多。或许最显著的是,由于过载而被拒绝的任务比率下降了约80–90%,用户感知的体验质量相比竞争方法提升了约15–75%。

Figure 2
Figure 2.

对日常联网设备意味着什么

在实践层面,这项研究表明,一个适应性强、以学习为驱动的“数字任务空中交通管制员”可以使边缘—云系统比静态调度规则更具响应性和经济性。IntelliScheduler展示了通过持续监测服务器和网络的繁忙程度,并从多种过去条件中学习,自动化代理能够以更少的请求丢失保持时间敏感的物联网应用平稳运行。尽管当前结果来自受控模拟,且主要关注延迟和成本而非能耗或安全性,但该框架被设计为可扩展。随着此类系统从模拟走向真实部署,它们有望帮助确保日益增长的日常智能设备网络在后台显得更快、更可靠且更节约资源。

引用: Raju, L.R., Reddy, M.V.K., Surukanti, S.R. et al. IntelliScheduler: an edge-cloud computing environment hybrid deep learning framework for task scheduling based on learning. Sci Rep 16, 11219 (2026). https://doi.org/10.1038/s41598-026-41330-8

关键词: 边缘计算, 云计算, 任务调度, 强化学习, 物联网