Clear Sky Science · ru
Интеграция QLSA-MOEAD для точного планирования задач в гетерогенных вычислительных средах
Почему более умное планирование важно
От моделирования землетрясений до космических телескопов — современная наука работает на широких вычислительных системах, объединяющих разные типы чипов: традиционные CPU, графические процессоры и перенастраиваемое оборудование. Решение о том, какой чип должен выполнять какую часть работы и в каком порядке — задача куда сложнее, чем кажется, и при плохом выполнении приводит к потере времени и энергии. В этой статье предложен новый способ оркестровки таких сложных нагрузок, позволяющий крупным заданиям завершаться быстрее, эффективнее использовать оборудование и, в некоторых случаях, потреблять меньше энергии.
Разные чипы, запутанные задачи
Современные суперкомпьютеры «гетерогенны»: они совмещают CPU, GPU, FPGA и другие ускорители, у каждого из которых свои сильные стороны. Научные и промышленные приложения часто разбивают работу на множество мелких задач, связанных зависимостями данных, образуя ориентированный ациклический граф (DAG). Некоторые задачи должны завершиться до запуска других, и скорость выполнения зависит от того, на каком чипе они выполняются. Задача — назначить сотни взаимозависимых задач на множество процессоров так, чтобы суммарное время завершения было минимальным, машины не простаивали, а в некоторых рабочих процессах энергопотребление оставалось под контролем. Математически это NP-трудная задача, то есть полный перебор неприемлем для реалистичных систем.

Почему старые методы не тянут
Традиционные подходы к планированию часто предполагают стабильную среду и ориентируются на одну цель, например минимизацию времени выполнения. Известные эвристики, такие как HEFT, упорядочивают задачи по приоритету, тогда как метаэвристики вроде имитации отжига или табу-поиска исследуют пространство возможных расписаний в поисках улучшений. Эти методы хорошо работают на небольших или простых системах, но обычно начинаются с случайных начальных расписаний, не адаптируются к изменяющимся условиям и с трудом учитывают одновременно несколько целей — времени, равномерной загрузки оборудования и энергии. Недавние планировщики на основе машинного обучения добавляют адаптивность, но обычно требуют больших наборов данных для обучения и по-прежнему не дают принципиального способа получить полный набор компромиссных решений для нескольких целей.
Гибридный алгоритм, который планирует и дорабатывает
Авторы предлагают QLSA-MOEAD — гибридную архитектуру, сочетающую три идеи: Q-обучение, имитацию отжига и многоцелевую эволюционную технику MOEA/D. Сначала агент на основе Q-обучения обучается формировать порядок задач методом проб и ошибок. Он многократно строит расписания, наблюдает, сколько времени они занимают, и обновляет таблицу «Q-значений», фиксирующую, какие выборы приводят к лучшим результатам. Вместо опоры на фиксированные правила агент постепенно усваивает хорошие шаблоны сопоставления задач и процессоров, включая реакции на появление новых задач во время исполнения. Используя эту выученную политику, система генерирует сильное начальное расписание, а не случайное, давая оптимизатору преимущество с самого начала.
Тонкая настройка и уравновешивание конкурирующих целей
Далее имитация отжига корректирует выученное расписание, меняя местами пары задач и иногда принимая худшие варианты, чтобы выйти из локальных тупиков — подобно встряске головоломки, позволяющей добиться лучшей конфигурации. Наконец, MOEA/D рассматривает задачу планирования как по-настоящему многоцелевую. Вместо сведения всех целей к одному показателю, метод декомпозирует задачу на множество подзадач, каждая из которых отражает разные компромиссы между скоростью завершения и равномерной загрузкой процессоров — и, для сейсмического рабочего процесса CyberShake, также снижением энергопотребления. Эволюционный процесс исследует эти компромиссы параллельно, обмениваясь информацией между соседними подзадачами, чтобы получить разнообразный «парето-фронт» расписаний, где улучшение одной цели ухудшит другую.

Проверка метода на практике
Для оценки производительности QLSA-MOEAD протестировали на 20 рабочих процессах, включая синтетические нагрузки для быстрого преобразования Фурье и молекулярных расчетов, большой астрономический рабочий процесс по сшивке изображений (Montage) и реальную симуляцию землетрясений CyberShake. В 16 синтетических случаях новый метод дал наилучшее качество решений в 14, сократив время выполнения и улучшив использование оборудования по сравнению с несколькими современными базовыми методами. Для CyberShake, где также оптимизировалось энергопотребление, он показал двух-–четырехкратное улучшение стандартной многоцелевой меры качества по сравнению с предшествующим лучшим решением, при этом сохранив хороший набор компромиссных решений. В динамических тестах, где новые задачи появляются в процессе выполнения, обученный планировщик мог среагировать менее чем за две миллисекунды, корректируя планы значительно быстрее, чем полная перерасчётка, хотя иногда это происходило в ущерб оптимальности при экстремальных задержках связи.
Что это значит для повседневных вычислений
Для неспециалиста вывод таков: более умные планировщики на основе обучения могут сделать крупные смешанные вычислительные системы быстрее и экологичнее без постоянной ручной настройки. Сочетая планировщик, основанный на накопленном опыте (Q-обучение), тщательный локальный поиск (имитация отжига) и исследователь компромиссов (MOEA/D), предложенная архитектура стабильно находит расписания, позволяющие завершать крупные задания быстрее, лучше загружать дорогое оборудование и, для некоторых приложений, снижать энергопотребление. Хотя остаются ограничения — стоимость обучения и падение производительности в самых экстремальных условиях — исследование демонстрирует практический путь к более автономной и эффективной оркестрации сложных научных и промышленных рабочих процессов.
Цитирование: Saad, A., Abd el-Raouf, O., Hadhoud, M. et al. QLSA-MOEAD integration for precision task scheduling in heterogeneous computing environments. Sci Rep 16, 7194 (2026). https://doi.org/10.1038/s41598-026-36916-1
Ключевые слова: планирование задач, гетерогенные вычисления, обучение с подкреплением, многоцелевой оптимум, энергоэффективные рабочие процессы