Clear Sky Science · fr

Comparer consommation d’énergie et précision dans l’inférence de classification de texte

· Retour à l’index

Pourquoi l’IA énergivore compte

Dans les coulisses des chatbots et des outils intelligents de gestion de documents, les ordinateurs consomment discrètement de l’électricité. À mesure que les grands modèles de langue deviennent plus volumineux et plus répandus, leur appétit énergétique soulève des questions pour les objectifs climatiques et les budgets publics. Cet article pose une question simple mais cruciale : lorsqu’on utilise l’IA pour trier et étiqueter du texte, a‑t‑on vraiment besoin des plus gros modèles, ou des outils plus petits et plus légers peuvent‑ils accomplir la tâche aussi bien tout en consommant beaucoup moins d’énergie ?

Trier des plaintes du monde réel

Les auteurs ancrent leur étude dans une tâche concrète de l’administration publique allemande : traiter des objections écrites de citoyen·ne·s concernant le choix de sites pour le stockage de déchets radioactifs de haut niveau. Des centaines de courtes prises de position devaient être regroupées en catégories — par exemple problèmes de données ou exigences sur le site — pour être transmises aux bons experts. C’est un problème classique de classification de texte auquel gouvernements, entreprises et ONG sont confrontés lorsqu’ils trient des courriels, des tickets de support ou des commentaires publics.

Pour étudier cela, les chercheur·se·s ont utilisé un jeu de données public nettoyé contenant 378 soumissions étiquetées. Ils l’ont divisé en deux moitiés égales pour l’entraînement et le test, et ont répété chaque expérience dix fois avec des découpages aléatoires différents pour éviter les résultats dus au hasard. Ils ont ensuite comparé des modèles d’apprentissage automatique traditionnels — comme la régression logistique et le gradient boosting alimentés par des caractéristiques textuelles simples — à une large gamme de grands modèles de langue modernes, incluant des modèles ouverts récents des familles Llama, Qwen, Phi, Jamba et DeepSeek. Tous les grands modèles de langue ont été utilisés « tels quels » en mode zero‑shot : ils recevaient les instructions de la tâche et le texte, mais pas d’entraînement supplémentaire sur les catégories spécifiques.

Figure 1
Figure 1.

Mesurer l’électricité, pas seulement les bonnes réponses

La plupart des articles sur l’IA mettent en avant la précision et rarement autre chose. Ici, les auteurs mesurent non seulement la fréquence à laquelle chaque modèle classe correctement le texte, mais aussi la quantité d’énergie qu’il consomme pendant ce processus, et le temps nécessaire. Ils exécutent leurs expériences sur trois grappes de calcul haute performance équipées de générations différentes de GPU NVIDIA. En utilisant l’outil CodeCarbon, ils estiment la puissance prélevée par les processeurs, les cartes graphiques et la mémoire pendant la phase d’inférence — le moment où les modèles sont effectivement utilisés pour faire des prédictions. Ils se concentrent sur des conditions de « warm start » qui reflètent les déploiements réels, où un modèle reste chargé en mémoire et traite de nombreux documents à la suite.

Ce dispositif leur permet d’explorer plusieurs questions pratiques : les gros modèles sont‑ils toujours plus précis ? Plus de GPU font‑ils gagner du temps sans économiser d’énergie ? Le choix du matériel compte‑t‑il beaucoup ? Et le simple temps d’exécution — le temps mur que met un modèle — peut‑il servir d’approximation de sa consommation d’énergie quand les mesures directes font défaut ?

Modèles plus petits, factures plus légères

La conclusion centrale est frappante : pour le jeu de données sur les déchets radioactifs, un modèle linéaire traditionnel construit sur des embeddings de phrases pré‑calculés est à la fois le plus précis et bien plus économe en énergie que n’importe lequel des grands modèles de langue testés. Même les modèles traditionnels les plus simples surpassent plusieurs grands modèles tout en consommant des quantités d’énergie minimes. En revanche, certains des plus grands modèles, en particulier ceux qui intègrent des étapes internes de « raisonnement », consomment des centaines à des milliers de fois plus d’électricité sans fournir de meilleurs résultats.

À travers différents réglages matériels, le GPU domine la consommation d’énergie dès que des grands modèles sont en jeu. Ajouter des GPU accélère l’inférence mais ne réduit généralement pas l’énergie totale, et répartir un modèle sur plusieurs nœuds informatiques aggrave souvent la situation à cause du surcoût de communication. Lorsque les auteurs examinent plusieurs jeux de données au‑delà du cas des déchets nucléaires — sujets d’actualité, avis clients, sentiment de films et émotions — ils trouvent un tableau plus nuancé : sur certaines tâches, les grands modèles de langue atteignent des précisions nettement supérieures, mais cette amélioration s’accompagne souvent de coûts énergétiques élevés. Dans tous les cas, la consommation d’énergie croît presque linéairement avec le temps d’exécution, ce qui signifie que la durée d’un modèle est un très bon indicateur de la puissance qu’il tirera sur une machine donnée.

Figure 2
Figure 2.

Vers des choix d’IA attentifs au climat

Au‑delà des chiffres, l’article soutient que l’IA durable doit être jugée selon au moins deux axes distincts : l’efficacité d’une part pour accomplir la tâche, et la quantité de ressources consommées d’autre part. Plus grand n’est pas automatiquement meilleur, et s’appuyer par défaut sur des modèles massifs et polyvalents pour des classifications de routine risque d’entraîner des émissions inutiles, des coûts opérationnels plus élevés et des temps de traitement plus longs. Les auteurs recommandent que les organisations commencent par des modèles transparents et légers comme références, n’utilisent des grands modèles de langue que lorsqu’ils améliorent de manière démontrable la précision, et pèsent toujours ce gain par rapport aux exigences énergétiques et matérielles.

Ce que cela implique pour les systèmes du quotidien

Pour le grand public, le message est clair : lorsqu’un système d’IA étiquette votre courriel, oriente votre plainte ou classe un document, un modèle petit et soigneusement choisi peut tout aussi bien vous servir qu’un modèle géant — tout en étant moins cher, plus rapide et plus respectueux de la planète. En montrant que la consommation d’énergie peut varier de six ordres de grandeur pour des précisions comparables, et que des mesures simples de durée peuvent approximativement indiquer les besoins en puissance, cette étude offre un outillage pratique pour des décisions d’IA plus conscientes du climat dans l’administration publique et au‑delà.

Citation: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0

Mots-clés: IA économe en énergie, classification de texte, grands modèles de langue, informatique durable, données de l’administration publique