Clear Sky Science · nl

Vergelijking van energieverbruik en nauwkeurigheid bij inferentie voor tekstop classificatie

· Terug naar het overzicht

Waarom energieverslindende AI ertoe doet

Achter de schermen van chatbots en slimme documentenhulpmiddelen verbruiken computers ongemerkt elektriciteit. Naarmate grote taalmodellen groter en algemener worden, roept hun honger naar stroom vragen op voor klimaatdoelen en openbare budgetten. Dit artikel stelt een eenvoudige maar cruciale vraag: wanneer we AI gebruiken om tekst te ordenen en te labelen, hebben we dan echt de grootste modellen nodig, of kunnen kleinere, lichtere hulpmiddelen hetzelfde werk doen terwijl ze veel minder energie verbruiken?

Klachten uit de echte wereld classificeren

De auteurs baseren hun studie op een concrete taak uit de Duitse publieke administratie: het verwerken van schriftelijke bezwaren van burgers over de opslaglocatie van hoogradioactief afval. Honderden korte verklaringen moesten worden gegroepeerd in categorieën zoals gegevensproblemen of locatiespecifieke eisen, zodat ze naar de juiste deskundigen konden worden gestuurd. Dit is een klassiek probleem van tekstop classificatie waarmee overheden, bedrijven en ngo’s te maken hebben wanneer ze e-mails, ondersteuningsverzoeken of publieke reacties moeten triëren.

Voor dit onderzoek gebruikten de onderzoekers een opgeschoonde publieke dataset van 378 gelabelde inzendingen. Ze deelden die in twee gelijke helften voor training en testen en herhaalden elk experiment tien keer met verschillende willekeurige splits om toevalligheden te vermijden. Vervolgens vergeleken ze traditionele machine‑learningmodellen — zoals logistische regressie en gradient boosting gevoed met eenvoudige tekstkenmerken — met een breed scala aan moderne grote taalmodellen, waaronder recente open modellen uit de Llama-, Qwen-, Phi-, Jamba- en DeepSeek‑families. Alle grote taalmodellen werden “out of the box” in een zero‑shot‑modus gebruikt: ze kregen taakinstructies en de tekst, maar geen extra training op de specifieke categorieën.

Figure 1
Figure 1.

Elektriciteit meten, niet alleen correcte antwoorden

De meeste AI‑publicaties benadrukken nauwkeurigheid en weinig anders. Hier meten de auteurs niet alleen hoe vaak elk model de tekst correct classificeert, maar ook hoeveel energie het verbruikt en hoe lang het duurt. Ze voeren hun experimenten uit op drie high‑performance computing‑clusters uitgerust met verschillende generaties NVIDIA‑GPU’s. Met behulp van de CodeCarbon‑toolkit schatten ze het vermogen dat processors, grafische kaarten en geheugen trekken tijdens de inferentiefase — het moment waarop modellen daadwerkelijk voorspellingen doen. Ze richten zich op “warm start” condities die echte inzet weerspiegelen, waarbij een model in het geheugen geladen blijft en veel documenten achter elkaar verwerkt.

Deze opzet stelt hen in staat verschillende praktische vragen te onderzoeken: Zijn grote modellen altijd nauwkeuriger? Besparen meer GPU’s tijd zonder energie te besparen? Hoeveel doet de hardwarekeuze ertoe? En kan eenvoudige runtime — de kloktijd die een model nodig heeft — dienen als ruwe proxy voor het energieverbruik wanneer directe metingen niet beschikbaar zijn?

Kleinere modellen, lagere rekeningen

De kernbevinding is opvallend: voor de dataset over radioactief afval is een traditioneel lineair model gebaseerd op voorgecomputeerde zinsemantieken zowel het meest nauwkeurig als veel energiezuiniger dan een van de geteste grote taalmodellen. Zelfs de eenvoudigste traditionele modellen verslaan meerdere grote modellen terwijl ze slechts geringe hoeveelheden energie verbruiken. Daarentegen verbruiken sommige van de grootste modellen, vooral die met toegevoegde interne “redeneer”-stappen, honderden tot duizenden keren meer elektriciteit zonder betere resultaten te leveren.

Kijkend naar verschillende hardware‑instellingen domineren de GPU’s het energieverbruik wanneer grote modellen betrokken zijn. Meer GPU’s versnellen inferentie maar snijden doorgaans niet in het totale energieverbruik, en het spreiden van een model over meerdere computernodes maakt het in feite vaak erger door communicatieoverhead. Wanneer de auteurs meerdere datasets naast het nucleaire‑afvalgeval bestuderen — nieuwsonderwerpen, klantbeoordelingen, film sentiment en emoties — ontstaat een genuanceerder beeld: bij sommige taken bereiken grote taalmodellen merkbaar hogere nauwkeurigheid, maar die verbetering gaat vaak gepaard met hoge energiekosten. In alle omgevingen schaalt het energieverbruik vrijwel lineair met runtime, wat betekent dat hoe langer een model neemt een goede benadering is voor hoeveel vermogen het op een gegeven machine verbruikt.

Figure 2
Figure 2.

Op weg naar klimaatbewuste AI-keuzes

Voorbij de cijfers betogen de auteurs dat duurzame AI op ten minste twee gescheiden assen beoordeeld moet worden: hoe goed het een taak uitvoert en hoeveel middelen het verbruikt. Groter is niet automatisch beter, en standaard vertrouwen op massieve algemene modellen voor routinematige classificatie brengt onnodige emissies, hogere bedrijfslasten en langere verwerkingstijden met zich mee. De auteurs raden organisaties aan te beginnen met transparante, lichte modellen als baseline, pas over te stappen op grotere taalmodellen wanneer ze aantoonbaar de nauwkeurigheid verbeteren, en dat voordeel altijd af te wegen tegen energie‑ en hardwarevereisten.

Wat dit betekent voor alledaagse systemen

Voor niet‑specialisten is de boodschap duidelijk: wanneer een AI‑systeem je e-mail tagt, je klacht doorstuurt of een document classificeert, kan een zorgvuldig gekozen klein model je net zo goed van dienst zijn als een reusachtig model — terwijl het goedkoper, sneller en vriendelijker voor de planeet is. Door aan te tonen dat het energieverbruik tot zes orden van grootte kan verschillen bij vergelijkbare nauwkeurigheid, en dat eenvoudige tijdmetingen het energieverbruik redelijk kunnen benaderen, biedt deze studie een praktisch instrumentarium voor meer klimaatbewuste AI‑keuzes in overheden en daarbuiten.

Bronvermelding: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0

Trefwoorden: energiezuinige AI, tekstop classificatie, grote taalmodellen, duurzaam rekenen, data openbaar bestuur