Clear Sky Science · it

Integrazione QLSA-MOEAD per la pianificazione precisa dei compiti in ambienti di calcolo eterogenei

· Torna all'indice

Perché la pianificazione dei computer più intelligente è importante

Dalle simulazioni sismiche ai telescopi spaziali, la scienza moderna si basa su sistemi informatici estesi che combinano molti tipi di chip—CPU tradizionali, processori grafici e hardware riconfigurabile. Decidere quale chip deve eseguire quale lavoro, e in quale ordine, è sorprendentemente difficile e può sprecare tempo ed energia se fatto male. Questo articolo presenta un nuovo modo di orchestrare questi carichi di lavoro complessi in modo che i grandi job terminino più in fretta, sfruttino meglio l'hardware e, in alcuni casi, consumino meno energia.

Chip diversi, compiti intrecciati

I computer ad alte prestazioni moderni sono “eterogenei”: combinano CPU, GPU, FPGA e altri acceleratori, ciascuno con punti di forza distinti. Le applicazioni scientifiche e industriali spesso dividono il lavoro in molti piccoli compiti collegati da dipendenze di dati, formando naturalmente un grafo orientato aciclico (DAG). Alcuni compiti devono terminare prima che altri possano iniziare, e i compiti possono essere più o meno rapidi a seconda del chip su cui vengono eseguiti. La sfida è assegnare centinaia di compiti interdipendenti a un mix di processori in modo che il tempo complessivo di completamento sia breve, le macchine restino occupate piuttosto che inattive e, per certi workflow, il consumo energetico rimanga sotto controllo. Matematicamente, questo è un problema NP-hard, il che significa che una ricerca per forza bruta è impraticabile per sistemi realistici.

Figure 1
Figure 1.

Perché i metodi più datati non bastano

Gli approcci tradizionali alla pianificazione spesso presuppongono un ambiente stabile e si concentrano su un unico obiettivo, come minimizzare il tempo di completamento. Euristiche note come HEFT ordinano i compiti per priorità, mentre metaeuristiche come il simulated annealing o la tabu search esplorano lo spazio delle possibili schedule alla ricerca di miglioramenti. Questi metodi possono funzionare bene su sistemi più piccoli o più semplici, ma tipicamente partono da schedule iniziali casuali, non si adattano quando le condizioni cambiano e faticano a bilanciare più obiettivi contemporaneamente—come tempo, bilanciamento del carico hardware ed energia. I pianificatori recenti basati sull’apprendimento automatico aggiungono adattività, ma di solito richiedono grandi dataset di addestramento e mancano ancora di un modo ben fondato per produrre un insieme completo di soluzioni di compromesso per obiettivi multipli.

Un apprendimento ibrido che pianifica e perfeziona

Gli autori propongono QLSA-MOEAD, un framework ibrido che fonde tre idee: Q-learning, simulated annealing e una tecnica evolutiva multi-obiettivo chiamata MOEA/D. Innanzitutto, un agente di Q-learning viene addestrato a costruire ordini di compiti tramite prove ed errori. Costruisce ripetutamente schedule, osserva quanto tempo impiegano a completarsi e aggiorna una tabella di “Q-value” che cattura quali scelte tendono a portare a risultati migliori. Invece di affidarsi a regole fisse, l’agente apprende gradualmente buoni schemi per mappare i compiti sui processori, incluso come reagire quando nuovi compiti compaiono durante l’esecuzione. Usando questa policy appresa, il sistema genera uno schedule iniziale forte anziché uno casuale, dando al processo di ottimizzazione un vantaggio iniziale.

Affinare e bilanciare obiettivi in competizione

Successivamente, il simulated annealing mette a punto lo schedule appreso scambiando coppie di compiti e accettando occasionalmente opzioni peggiori per sfuggire a vicoli ciechi locali, proprio come scuotere un puzzle per arrivare a una configurazione migliore. Infine, MOEA/D tratta il problema di scheduling come genuinamente multi-obiettivo. Invece di comprimere tutti gli scopi in un unico punteggio, decompone il problema in molti sotto-problemi, ciascuno rappresentante un diverso compromesso tra terminare in fretta e mantenere i processori carichi in modo uniforme—e, per un workflow di rischio sismico chiamato CyberShake, anche ridurre il consumo energetico. Un processo evolutivo esplora questi compromessi in parallelo, scambiando informazioni tra sotto-problemi vicini per produrre un “fronte di Pareto” vario di schedule in cui migliorare un obiettivo peggiorerebbe un altro.

Figure 2
Figure 2.

Mettere il metodo alla prova

Per valutare le prestazioni, QLSA-MOEAD è stato testato su 20 casi di workflow, incluse workload sintetiche di Trasformata di Fourier veloce e molecolari, un grande workflow astronomico di unione di immagini (Montage) e la simulazione sismica reale CyberShake. Su 16 casi sintetici, il nuovo metodo ha fornito la migliore qualità della soluzione in 14, riducendo i tempi di completamento e migliorando l’utilizzo dell’hardware rispetto a diverse baseline avanzate. Per CyberShake, dove è stata ottimizzata anche l’energia, ha raggiunto miglioramenti di due- fino a quattro volte in una misura standard di qualità multi-obiettivo rispetto al precedente stato dell’arte, mantenendo una buona varietà di soluzioni di compromesso. Nei test dinamici in cui nuovi compiti arrivano in tempo reale, il pianificatore appreso poteva reagire in meno di due millisecondi, aggiustando i piani molto più rapidamente rispetto al ricalcolo completo, sebbene talvolta a costo di una minore ottimalità quando i ritardi di comunicazione erano estremi.

Cosa significa per il calcolo di tutti i giorni

Per un non specialista, il messaggio è che pianificatori più intelligenti basati sull’apprendimento possono rendere i grandi computer a chip misti sia più veloci che più ecologici senza un continuo intervento umano. Combinando un pianificatore basato sull’esperienza (Q-learning), una ricerca locale accurata (simulated annealing) e un esploratore dei compromessi (MOEA/D), il framework proposto trova in modo consistente schedule che completano i grandi job prima, mantengono meglio utilizzato l’hardware costoso e, per alcune applicazioni, riducono il consumo energetico. Pur rimanendo dei limiti—come i costi di addestramento e cali di prestazione nelle condizioni più estreme—lo studio indica una strada pratica verso un’orchestrazione più autonoma ed efficiente di workflow scientifici e industriali complessi.

Citazione: Saad, A., Abd el-Raouf, O., Hadhoud, M. et al. QLSA-MOEAD integration for precision task scheduling in heterogeneous computing environments. Sci Rep 16, 7194 (2026). https://doi.org/10.1038/s41598-026-36916-1

Parole chiave: pianificazione dei compiti, calcolo eterogeneo, apprendimento per rinforzo, ottimizzazione multi-obiettivo, workflow a risparmio energetico