Clear Sky Science · zh
比较文本分类推理中的能耗与准确性
为什么高耗能的人工智能很重要
在聊天机器人和智能文档工具的幕后,计算机正默默消耗电力。随着大型语言模型变得更大、更普遍,它们对能源的需求为气候目标和公共预算带来了疑问。本文提出了一个简单却关键的问题:在使用人工智能对文本进行排序和标注时,我们真的需要最大型的模型吗?还是小型、更轻量的工具就能以远低得多的能耗完成同样的工作?
为现实投诉分类
作者将研究建立在德国公共行政的一个具体任务上:处理公民关于高放射性废物存放地点的书面异议。数百条简短陈述需要被归入诸如数据问题或场地要求等类别,以便将它们发送给相应的专家。这是一个典型的文本分类问题,政府、公司和非政府组织在对电子邮件、支持工单或公众意见进行分流时都会遇到。
为研究这一点,研究者使用了一个清洗过的、包含378条标注提交的公共数据集。他们将数据平均分为训练集和测试集,并对每次实验采用十次不同的随机划分以避免偶然性。然后他们将传统的机器学习模型——例如使用简单文本特征的逻辑回归和梯度提升——与一系列现代大型语言模型进行比较,这些模型包括来自Llama、Qwen、Phi、Jamba和DeepSeek等家族的最新开源模型。所有大型语言模型均以“开箱即用”的零样本模式使用:它们只接收任务说明和文本,而未在特定类别上做额外训练。

测量电力,而不仅仅是正确率
大多数人工智能论文强调准确率而几乎不提其它指标。在这里,作者不仅测量每个模型将文本分类正确的频率,还测量它们在执行时消耗了多少能量,以及所花费的时间。他们在三套配备不同代NVIDIA GPU的高性能计算集群上运行实验。使用CodeCarbon工具包,他们估算了在推理阶段——模型实际用于做出预测的时刻——处理器、显卡和内存的能耗。他们关注的是模拟真实部署的“热启动”条件,即模型保持加载在内存中并顺序处理大量文档。
这一设置使他们能够探讨若干实际问题:大型模型是否总是更准确?更多GPU能否在不增加能耗的情况下节省时间?硬件选择的重要性有多大?当无法直接测量能耗时,运行时间——模型所需的挂钟时间——能否作为其能耗的粗略代理?
更小的模型,更低的账单
核心发现引人注目:在放射性废物数据集上,基于预先计算的句子嵌入构建的传统线性模型既是最准确的,同时在能效上远胜于任何被测试的大型语言模型。即便是最简单的传统模型也能在极低的能耗下击败若干大型模型。相比之下,一些最大的模型,尤其是那些带有内部“推理”步骤的模型,消耗的电力比其他模型高出数百到数千倍,但并未带来更好的结果。
在不同硬件设置中,当涉及大型模型时,GPU主导了能耗。增加更多GPU可以加快推理速度,但通常不会降低总能耗,而将模型分布到多个计算节点由于通信开销反而会使情况恶化。当作者考察除核废料案例之外的多个数据集——新闻主题、顾客评价、电影情感和情绪分类时,他们发现情况更为细化:在某些任务上,大型语言模型确实能实现明显更高的准确率,但这种提升往往伴随着巨大的能耗代价。在每种设置下,能耗与运行时间几乎呈线性关系,这意味着模型所需的时间是在给定机器上估算其电力消耗的一个很好的替代指标。

迈向气候意识的人工智能选择
除去数字之外,论文主张应至少在两个独立轴线上评判可持续的人工智能:其完成任务的能力和所消耗的资源。更大并不必然更好,在常规分类任务上默认使用大型通用模型会带来不必要的排放、更高的运行成本和更长的处理时间。作者建议组织以透明、轻量的模型作为基线,仅当大型语言模型能显著提高准确率时才采用,并始终将这种提升与能耗和硬件需求进行权衡。
对日常系统的意义
对非专业读者来说,结论很清楚:当一个人工智能系统为你的邮件打标签、为你的投诉分流或对文档分类时,经过精心选择的小型模型可能和巨型模型一样好——同时更便宜、更快、对地球更友好。通过展示在相似准确率下能耗可相差六个数量级,以及简单的计时测量可近似估算功耗,这项研究为政府及其他领域的更具气候意识的人工智能决策提供了实用工具包。
引用: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0
关键词: 节能型人工智能, 文本分类, 大型语言模型, 可持续计算, 公共行政数据