Clear Sky Science · ru

Сравнение энергопотребления и точности при инференсе в задачах классификации текста

· Назад к списку

Почему важен прожорливый ИИ

За кулисами чат-ботов и интеллектуальных инструментов для работы с документами компьютеры тихо потребляют электроэнергию. По мере того как крупные языковые модели становятся больше и шире применяются, их потребность в энергии ставит вопросы в контексте климатических целей и государственных бюджетов. В этой работе поставлен простой, но ключевой вопрос: при сортировке и маркировке текстов действительно ли нужны самые большие модели, или более компактные и лёгкие инструменты справятся не хуже, расходуя при этом значительно меньше энергии?

Сортировка жалоб из реального мира

Авторы основывают исследование на конкретной задаче из немецкой публичной администрации: обработке письменных возражений граждан по размещению высокорадиоактивных отходов. Нужно было сгруппировать сотни коротких высказываний по категориям — например, проблемы с данными или требования к месту — чтобы перенаправить их соответствующим экспертам. Это классическая задача классификации текста, с которой сталкиваются правительства, компании и НКО при сортировке писем, заявок в службу поддержки или публичных комментариев.

Для исследования учёные использовали очищенный публичный набор данных из 378 размеченных обращений. Они разделили его поровну на обучающую и тестовую части и повторили каждый эксперимент десять раз с разными случайными разбиениями, чтобы избежать случайных совпадений. Затем они сравнили традиционные модели машинного обучения — такие как логистическая регрессия и градиентный бустинг, работающие с простыми текстовыми признаками — с широким спектром современных крупных языковых моделей, включая недавние открытые модели семейств Llama, Qwen, Phi, Jamba и DeepSeek. Все крупные языковые модели использовались «из коробки» в нулево‑шотовом режиме: им давались инструкции по задаче и текст, но не проводилось дополнительного обучения на конкретных категориях.

Figure 1
Figure 1.

Измеряя электричество, а не только правильные ответы

Большинство статей по ИИ подчёркивают точность и мало что ещё. Здесь авторы измеряют не только то, насколько часто каждая модель правильно классифицирует текст, но и сколько энергии она потребляет при этом и сколько времени занимает процесс. Эксперименты проводились на трёх вычислительных кластерах высокой производительности с различными поколениями GPU NVIDIA. С помощью набора инструментов CodeCarbon они оценивают потребляемую мощность процессоров, графических карт и памяти в фазе инференса — в тот момент, когда модели используются для прогнозов. Исследование ориентировано на условия «тёплого старта», которые отражают реальные развертывания, когда модель остаётся загруженной в память и обрабатывает множество документов подряд.

Такая постановка позволяет задать несколько практических вопросов: всегда ли большие модели точнее? Экономят ли дополнительные GPU время без снижения потребления энергии? Насколько важен выбор аппаратного обеспечения? И может ли простое время выполнения — реальное время, требуемое модели — служить грубым прокси для её энергопотребления, когда прямые измерения недоступны?

Меньше модель — ниже счёт

Ключевой вывод впечатляет: для набора данных по радиоактивным отходам традиционная линейная модель на основе заранее вычисленных эмбеддингов предложений оказалась одновременно самой точной и значительно более энергоэффективной, чем любая из протестированных крупных языковых моделей. Даже самые простые традиционные модели превосходили некоторые крупные модели, потребляя крошечные объёмы энергии. В то же время некоторые из крупнейших моделей, особенно с добавленными внутренними «шагами рассуждения», расходовали в сотни и тысячи раз больше электричества, не обеспечивая лучшей точности.

При разных аппаратных конфигурациях GPU доминирует в энергопотреблении всякий раз, когда задействованы крупные модели. Увеличение числа GPU ускоряет инференс, но, как правило, не снижает общую потраченную энергию, а распределение модели по нескольким узлам обычно ухудшает ситуацию из‑за накладных расходов на коммуникацию. При изучении нескольких наборов данных помимо случая с ядерными отходами — тематические новости, отзывы клиентов, сентимент фильмов и эмоции — картина оказалась более тонкой: в некоторых задачах крупные языковые модели действительно демонстрируют заметно лучшую точность, но это улучшение часто сопровождается значительными энергозатратами. Во всех условиях энергопотребление масштабируется почти линейно с временем выполнения, то есть длительность работы модели является хорошим приближением её потребления энергии на данном оборудовании.

Figure 2
Figure 2.

К климатично‑ответственным выборам в ИИ

Помимо чисел, в статье утверждается, что устойчивый ИИ следует оценивать по, по крайней мере, двум независимым осям: насколько хорошо он выполняет задачу и сколько ресурсов при этом потребляет. Больше не значит автоматически лучше, и использование по умолчанию массивных универсальных моделей для рутинной классификации влечёт за собой лишние выбросы, повышенные эксплуатационные расходы и более длительное время обработки. Авторы рекомендуют организациям начинать с прозрачных лёгких моделей в качестве базиса, переходить к крупным языковым моделям только тогда, когда они явно улучшают точность, и всегда сопоставлять выигрыш с энергетическими и аппаратными затратами.

Что это означает для повседневных систем

Для широкой аудитории послание ясно: когда ИИ‑система помечает ваше письмо, перенаправляет жалобу или классифицирует документ, аккуратно подобранная небольшая модель может служить вам не хуже гигантской — при этом она дешевле, быстрее и экологичнее. Показав, что энергопотребление может отличаться на шесть порядков при сопоставимой точности и что простые измерения времени могут аппроксимировать потребность в мощности, это исследование предлагает практический инструментарий для более климат‑осознанных решений по ИИ в правительстве и за его пределами.

Цитирование: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0

Ключевые слова: энергоэффективный ИИ, классификация текста, крупные языковые модели, устойчивые вычисления, данные государственной администрации