Clear Sky Science · ru

Распределение GPU-ресурсов с учётом политики для национального суперкомпьютинга

· Назад к списку

Почему суперкомпьютерам нужно больше, чем просто скорость

За сегодняшними прорывами в области ИИ, моделирования климата и новых материалов стоит скрытый труженик: национальные суперкомпьютеры, укомплектованные мощными графическими процессорами (GPU). Спрос на эти машины настолько велик, что не все получают нужное им время на них. В этой статье задаётся на первый взгляд простой, но важный вопрос для научной политики: можно ли распределять эти ценные GPU так, чтобы отражать стратегические приоритеты страны, не теряя при этом вычислительной мощности и не замедляя исследования?

Figure 1
Figure 1.

Проблема силы «кто первый — того и очередь»

В большинстве крупных вычислительных центров сегодня применяются правила планирования, ориентированные на поддержание загруженности машин и эффективное очищение очередей заданий. Системы в США, Европе, Японии и других местах часто отдают приоритет долгим, объёмным нагрузкам, поскольку они поддерживают высокий уровень использования и делают планирование предсказуемым. Но такой ориентированный на спрос подход создаёт скрытую предвзятость: области, которые уже порождают большое число GPU-задач — например, определённые разделы информатики — склонны получать всё большую долю ресурсов, тогда как стратегически важные, но менее GPU-интенсивные направления, такие как некоторые разделы материаловедения или наук о Земле, могут оказаться выжатыми. По мере того как конкуренция за часы GPU усиливается и государства всё теснее связывают суперкомпьютинг с экономическими и безопасностными целями, этот дисбаланс перестаёт быть лишь технической проблемой и превращается в вопрос общественной ценности и справедливости.

Встраивание политических целей в математику

В исследовании предлагается подход, в котором политические приоритеты закладываются прямо в формулы, управляющие распределением GPU. Вместо того чтобы относиться к политике как к дополнительной мере — например, вручную устанавливать лимиты или квоты — автор вводит «вектор целевой политики», фактически желаемую процентную долю GPU-ресурсов для каждой научной области. Этот вектор строится из трёх компонентов: структуры национальных расходов на исследования, официально выделенных приоритетных областей и исторического использования GPU, все три компонента смешаны поровну, чтобы ни один фактор не доминировал. Затем для каждой области фреймворк анализирует реальные характеристики поведения задач в системе — как долго они выполняются и как часто встречаются очень длинные задания — сводя это к простым числовым профилям.

Поиск компромисса между спросом и справедливостью

Используя эти профили, фреймворк строит по два сигнала для каждой области: один измеряет, насколько её паттерн использования похож на общее поведение системы, а другой отражает интенсивность использования GPU. Эти сигналы комбинируются с помощью двух настраиваемых весов, которые можно подбирать, чтобы делать упор либо на структурное соответствие, либо на чистый спрос. Перебирая множество комбинаций на исторических данных, модель находит пару весов, которая лучше всего соответствует вектору политики. В тестах на логах системы Neuron в Корее и на данных одного американского суперкомпьютерного центра оптимальный бленд смещался в сторону спроса, но всё же вносил значимый вклад в достижение политических целей. Один только этот статический оцениватель существенно сократил расхождение между желаемым и предсказанным распределением, хотя некоторые области — например, материаловедение — оставались явно недообслуженными.

Figure 2
Figure 2.

Интеллектуальная обратная связь для обмена в реальном времени

Чтобы уменьшить этот разрыв, исследование добавляет второй уровень: динамический контроллер, который работает по ходу выполнения системы. Время делится на короткие окна, и в каждом из них контроллер проверяет, превышает ли спрос области одновременно её долю в политике и то, что оправдано её недавней историей. Когда домен пытается использовать больше, чем этот эффективный верхний предел, лишнее считается изымаемой избыточностью. Эти «кусочки» GPU затем перераспределяются в пользу областей, которые не дотягивают до своих целей, пропорционально степени их недофинансирования. Процесс ограничения и перераспределения повторяется со временем, создавая петлю обратной связи, которая постепенно подталкивает фактическое распределение к вектору политики, при этом поддерживая почти полную загрузку машины.

Что показывают тесты о производительности и стабильности

Моделирование в рамках недели реальных шаблонов спроса показывает, что комбинированный подход существенно улучшает соответствие политическим целям: средняя ошибка распределения падает примерно с восьми процентов до чуть более одного процента, и аналогичное улучшение наблюдается по более строгой метрике ошибки. Важно, что эти преимущества не достигаются за счёт потерь мощности или увеличения очередей. Загруженность GPU остаётся выше 92 процентов, пропускная способность сравнима со стандартными планировщиками, а время ожидания не растёт. Стресс-тесты, в которых одна область искусственно увеличивает спрос — либо резким всплеском, либо продолжительной плато — показывают, что контроллер противостоит такой стратегической активности, сокращая ошибки примерно на 40–45 процентов по сравнению с неуправляемой базовой линией. Проверки чувствительности по ключевым параметрам указывают, что поведение остаётся стабильным в разумном диапазоне настроек.

Что это значит для будущего совместного вычисления

Проще говоря, статья показывает, что не нужно выбирать между быстрыми, эффективными суперкомпьютерами и продуманной национальной стратегией. Кодируя политические цели в виде чётких числовых задач и встраивая их как в планирование, так и в управление в реальном времени, предложенный фреймворк предлагает способ направлять время на GPU в пользу сбалансированного портфеля научных направлений без замедления машин и без обременения исследователей бюрократией. Хотя работа продемонстрирована в симуляции для одной системы и предполагает фиксированные целевые политики, она указывает путь к будущему, в котором национальные вычислительные центры выступают не только как мощные калькуляторы, но и как точные инструменты научно-технической стратегии.

Цитирование: Shim, H. Policy-aware GPU resource allocation for national supercomputing. Sci Rep 16, 12438 (2026). https://doi.org/10.1038/s41598-026-42625-6

Ключевые слова: Планирование GPU, политика суперкомпьютинга, распределение ресурсов, научная инфраструктура, вычисления ИИ