Clear Sky Science · it

Confronto tra consumo energetico e accuratezza nell'inferenza per la classificazione di testi

· Torna all'indice

Perché l’IA energivora conta

Dietro le quinte di chatbot e strumenti intelligenti per i documenti, i computer consumano elettricità in modo silenzioso. Con l’aumento di dimensioni e diffusione dei grandi modelli linguistici, il loro appetito energetico pone interrogativi per gli obiettivi climatici e i bilanci pubblici. Questo articolo pone una domanda semplice ma cruciale: quando usiamo l’IA per ordinare e etichettare testi, abbiamo davvero bisogno dei modelli più grandi, o strumenti più piccoli e leggeri possono svolgere lo stesso compito spendendo molta meno energia?

Ordinare reclami del mondo reale

Gli autori basano il loro studio su un compito concreto della pubblica amministrazione tedesca: elaborare le obiezioni scritte dei cittadini riguardo ai luoghi di stoccaggio dei rifiuti radioattivi ad alto livello. Centinaia di brevi dichiarazioni andavano raggruppate in categorie come problemi di dati o requisiti del sito, in modo da poterle inoltrare agli esperti competenti. Si tratta di un classico problema di classificazione di testi che governi, aziende e ONG affrontano ogni volta che smistano email, ticket di supporto o commenti pubblici.

Per studiarlo, i ricercatori hanno usato un dataset pubblico ripulito di 378 segnalazioni etichettate. L’hanno diviso in due metà uguali per addestramento e test e hanno ripetuto ogni esperimento dieci volte con divisioni casuali diverse per evitare risultati accidentali. Hanno quindi confrontato modelli di machine learning tradizionali — come regressione logistica e gradient boosting alimentati con caratteristiche testuali semplici — con un’ampia gamma di moderni grandi modelli linguistici, inclusi modelli open recenti delle famiglie Llama, Qwen, Phi, Jamba e DeepSeek. Tutti i grandi modelli sono stati usati "out of the box" in modalità zero-shot: hanno ricevuto le istruzioni del compito e il testo, ma nessun addestramento aggiuntivo sulle categorie specifiche.

Figure 1
Figura 1.

Misurare l’elettricità, non solo le risposte corrette

La maggior parte dei lavori sull’IA evidenzia l’accuratezza e poco altro. Qui, gli autori misurano non solo quanto spesso ogni modello classifica correttamente il testo, ma anche quanta energia consuma mentre lo fa e quanto tempo impiega. Eseguono gli esperimenti su tre cluster di calcolo ad alte prestazioni dotati di diverse generazioni di GPU NVIDIA. Utilizzando lo strumento CodeCarbon, stimano la potenza assorbita da processori, schede grafiche e memoria durante la fase di inferenza — il momento in cui i modelli vengono effettivamente usati per fare previsioni. Si concentrano su condizioni di "warm start" che rispecchiano distribuzioni reali, in cui un modello rimane caricato in memoria e processa molti documenti in sequenza.

Questa configurazione permette di esplorare diverse questioni pratiche: i modelli grandi sono sempre più accurati? Più GPU fanno risparmiare tempo senza ridurre l’energia? Quanto conta la scelta dell’hardware? E il tempo di esecuzione semplice — il tempo reale che un modello impiega — può sostituirsi come approssimazione del consumo energetico quando misurazioni dirette non sono disponibili?

Modelli più piccoli, bollette più leggere

La scoperta principale è sorprendente: per il dataset sui rifiuti radioattivi, un modello lineare tradizionale costruito su embedding di frase pre-calcolati risulta sia il più accurato sia di gran lunga più efficiente dal punto di vista energetico rispetto a qualsiasi dei grandi modelli testati. Anche i modelli tradizionali più semplici superano diversi grandi modelli consumando quantità di energia minime. Al contrario, alcuni dei modelli più grandi, specialmente quelli con passaggi interni di "ragionamento" aggiunti, consumano centinaia o migliaia di volte più elettricità senza fornire risultati migliori.

Osservando diversi ambienti hardware, la GPU domina il consumo energetico ogni volta che sono coinvolti grandi modelli. Aggiungere più GPU accelera l’inferenza ma generalmente non riduce l’energia totale, e distribuire un modello su più nodi di calcolo peggiora la situazione a causa dell’overhead di comunicazione. Quando gli autori esaminano più dataset oltre al caso dei rifiuti nucleari — argomenti di notizie, recensioni dei clienti, sentiment di film ed emozioni — emergono risultati più sfumati: in alcuni compiti i grandi modelli raggiungono un’accuratezza visibilmente maggiore, ma questo miglioramento spesso ha costi energetici elevati. In ogni configurazione, l’uso di energia cresce quasi linearmente con il tempo di esecuzione, il che significa che quanto tempo impiega un modello è un ottimo indicatore di quanta potenza assorbe su una macchina data.

Figure 2
Figura 2.

Verso scelte di IA consapevoli del clima

Oltre i numeri, l’articolo sostiene che l’IA sostenibile dovrebbe essere giudicata su almeno due assi distinti: quanto bene svolge un compito e quante risorse consuma. Più grande non è automaticamente meglio, e affidarsi per default a modelli generali massivi per classificazioni di routine rischia emissioni inutili, costi operativi più elevati e tempi di elaborazione più lunghi. Gli autori raccomandano che le organizzazioni inizino con modelli trasparenti e leggeri come baseline, passino a grandi modelli linguistici solo quando migliorano in modo dimostrabile l’accuratezza e valutino sempre quel guadagno rispetto alle esigenze energetiche e hardware.

Che cosa significa per i sistemi di tutti i giorni

Per i lettori non specialisti, il messaggio è chiaro: quando un sistema di IA etichetta la tua email, instrada il tuo reclamo o classifica un documento, un modello piccolo scelto con cura può funzionare altrettanto bene di uno gigantesco — pur essendo più economico, più veloce e più sostenibile. Mostrando che il consumo energetico può differire di sei ordini di grandezza per accuratezze simili, e che misure semplici del tempo possono approssimare i bisogni energetici, questo studio offre un kit pratico per decisioni di IA più attente al clima nelle amministrazioni pubbliche e oltre.

Citazione: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0

Parole chiave: IA a basso consumo energetico, classificazione di testi, grandi modelli linguistici, calcolo sostenibile, dati della pubblica amministrazione