Clear Sky Science · de
Vergleich von Energieverbrauch und Genauigkeit bei der Inferenz von Textklassifikation
Warum stromfressende KI eine Rolle spielt
Hinter den Kulissen von Chatbots und intelligenten Dokumentenwerkzeugen verbrauchen Rechner stillschweigend Strom. Mit dem Wachstum und der Verbreitung großer Sprachmodelle stellt ihr Energiebedarf eine Herausforderung für Klimaziele und öffentliche Haushalte dar. Dieses Papier stellt eine einfache, aber wichtige Frage: Brauchen wir für das Sortieren und Kennzeichnen von Texten wirklich die größten Modelle, oder können kleinere, leichtere Werkzeuge die Aufgabe mindestens genauso gut erfüllen und dabei deutlich weniger Energie verbrauchen?
Sortierung realer Beschwerden
Die Autorinnen und Autoren verankern ihre Studie in einer konkreten Aufgabe der deutschen Verwaltung: der Bearbeitung schriftlicher Einwendungen von Bürgerinnen und Bürgern zur Lagerung hochradioaktiver Abfälle. Hunderte kurzer Stellungnahmen mussten in Kategorien wie Datenprobleme oder Standortanforderungen eingeordnet werden, damit sie an die passenden Expertinnen und Experten weitergeleitet werden konnten. Dies ist ein klassisches Textklassifikationsproblem, dem Regierungen, Unternehmen und NGOs beim Sortieren von E‑Mails, Support‑Tickets oder öffentlichen Stellungnahmen immer wieder begegnen.
Für die Untersuchung nutzten die Forschenden einen bereinigten öffentlichen Datensatz mit 378 gelabelten Eingaben. Sie teilten ihn in zwei gleich große Hälften für Training und Test und wiederholten jedes Experiment zehnmal mit unterschiedlichen Zufallsaufteilungen, um Ausreißer zu vermeiden. Anschließend verglichen sie klassische Machine‑Learning‑Modelle – etwa logistische Regression und Gradient Boosting mit einfachen Textmerkmalen – mit einer breiten Palette moderner großer Sprachmodelle, darunter aktuelle offene Modelle aus den Familien Llama, Qwen, Phi, Jamba und DeepSeek. Alle großen Sprachmodelle wurden „out of the box“ im Zero‑Shot‑Modus eingesetzt: Sie erhielten Aufgabenanweisungen und den Text, aber keine zusätzliche Anpassung an die spezifischen Kategorien.

Strom messen, nicht nur richtige Antworten
Die meisten KI‑Publikationen heben nur die Genauigkeit hervor. Hier messen die Autorinnen und Autoren nicht nur, wie oft jedes Modell den Text korrekt einordnet, sondern auch, wie viel Energie es dabei verbraucht und wie lange es dauert. Sie führen ihre Experimente auf drei Hochleistungs‑Rechnerclustern mit unterschiedlichen Generationen von NVIDIA‑GPUs durch. Mit dem CodeCarbon‑Toolkit schätzen sie die Leistungsaufnahme von Prozessoren, Grafikkarten und Speicher während der Inferenzphase – dem Moment, in dem Modelle tatsächlich Vorhersagen treffen. Der Fokus liegt auf „Warm‑Start“-Bedingungen, die reale Einsätze widerspiegeln, bei denen ein Modell im Speicher geladen bleibt und viele Dokumente in Serie verarbeitet.
Dieses Setup erlaubt es, mehrere praktische Fragen zu untersuchen: Sind große Modelle immer genauer? Sparen mehr GPUs Zeit, ohne Energie zu sparen? Wie stark beeinflusst die Hardware die Ergebnisse? Und kann die Laufzeit – die reale Wanduhrzeit, die ein Modell benötigt – als grober Proxy für den Energieverbrauch dienen, wenn direkte Messungen nicht verfügbar sind?
Kleinere Modelle, kleinere Rechnungen
Das zentrale Ergebnis ist eindrücklich: Für den Datensatz zu radioaktivem Abfall ist ein traditionelles lineares Modell, das auf vorab berechneten Satz‑Embeddings basiert, sowohl am genauesten als auch deutlich energieeffizienter als alle getesteten großen Sprachmodelle. Selbst die einfachsten klassischen Modelle übertreffen mehrere große Modelle bei gleichzeitig sehr geringem Energieverbrauch. Demgegenüber verbrauchen einige der größten Modelle, insbesondere solche mit zusätzlichen internen „Reasoning“-Schritten, Hunderte bis Tausende Mal mehr Strom, ohne bessere Ergebnisse zu liefern.
Blickt man auf verschiedene Hardware‑Einstellungen, dominiert die GPU den Energieverbrauch, sobald große Modelle im Spiel sind. Mehr GPUs verkürzen die Inferenzzeit, reduzieren aber meist nicht den Gesamtenergiebedarf, und das Verteilen eines Modells auf mehrere Rechnerknoten verschlechtert die Bilanz aufgrund von Kommunikationsaufwand. Untersuchen die Autorinnen und Autoren mehrere Datensätze jenseits des Nuklearabfall‑Falls – Nachrichtenthemen, Kundenrezensionen, Film‑Sentiment und Emotionen – ergibt sich ein nuancierteres Bild: Bei einigen Aufgaben erreichen große Sprachmodelle deutlich höhere Genauigkeit, doch diese Verbesserungen gehen oft mit hohen Energiekosten einher. In allen Szenarien skaliert der Energieverbrauch nahezu linear mit der Laufzeit, sodass die benötigte Zeit ein sehr guter Indikator für die Leistungsaufnahme auf einer gegebenen Maschine ist.

Auf dem Weg zu klimabewussten KI‑Entscheidungen
Über die Zahlen hinaus argumentiert die Arbeit, dass nachhaltige KI an mindestens zwei getrennten Achsen bewertet werden sollte: wie gut sie eine Aufgabe erfüllt und wie viele Ressourcen sie verbraucht. Größer ist nicht automatisch besser, und die standardmäßige Nutzung massiver Allzweckmodelle für routinemäßige Klassifikationen birgt das Risiko unnötiger Emissionen, höherer Betriebskosten und längerer Verarbeitungszeiten. Die Autorinnen und Autoren empfehlen, dass Organisationen mit transparenten, leichten Modellen als Basis beginnen, zu größeren Sprachmodellen nur dann übergehen, wenn diese die Genauigkeit nachweislich verbessern, und diesen Gewinn stets gegen Energie‑ und Hardwareanforderungen abwägen.
Was das für Alltagsysteme bedeutet
Für nicht‑fachliche Leserinnen und Leser ist die Botschaft klar: Wenn ein KI‑System Ihre E‑Mail kennzeichnet, Ihre Beschwerde weiterleitet oder ein Dokument klassifiziert, kann ein sorgfältig ausgewähltes kleines Modell Ihnen genauso gut dienen wie ein großes – und zwar günstiger, schneller und umweltfreundlicher. Indem die Studie zeigt, dass sich der Energieeinsatz bei ähnlicher Genauigkeit über sechs Größenordnungen unterscheiden kann und dass einfache Zeitmessungen den Leistungsbedarf annähern können, liefert sie ein praktisches Werkzeug für klimabewusstere KI‑Entscheidungen in Verwaltung und darüber hinaus.
Zitation: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0
Schlüsselwörter: energieeffiziente KI, Textklassifikation, große Sprachmodelle, nachhaltiges Rechnen, Daten der öffentlichen Verwaltung