Clear Sky Science · pl
Porównanie zużycia energii i dokładności w inferencji klasyfikacji tekstu
Dlaczego energochłonna SI ma znaczenie
Za kulisami chatbotów i inteligentnych narzędzi do przetwarzania dokumentów komputery cicho zużywają prąd. W miarę jak duże modele językowe rosną i stają się powszechniejsze, ich apetyt na energię stawia pytania dotyczące celów klimatycznych i budżetów publicznych. W artykule postawiono proste, lecz kluczowe pytanie: czy przy sortowaniu i etykietowaniu tekstu naprawdę potrzebujemy największych modeli, czy mniejsze, lżejsze narzędzia poradzą sobie równie dobrze, zużywając dużo mniej energii?
Sortowanie rzeczywistych skarg
Autorzy osadzili swoje badanie w konkretnym zadaniu z niemieckiej administracji publicznej: przetwarzaniu pisemnych sprzeciwów obywateli dotyczących miejsc składowania wysokoaktywnego odpadu promieniotwórczego. Setki krótkich wypowiedzi trzeba było pogrupować w kategorie takie jak problemy z danymi czy wymagania dotyczące lokalizacji, aby można je było przekazać właściwym ekspertom. To klasyczny problem klasyfikacji tekstu, z którym rządy, firmy i organizacje pozarządowe mierzą się za każdym razem, gdy segregują e-maile, zgłoszenia wsparcia lub uwagi publiczne.
Aby to zbadać, badacze wykorzystali oczyszczony publiczny zbiór danych zawierający 378 oznakowanych zgłoszeń. Podzielili go na równe połowy do trenowania i testowania oraz powtórzyli każdy eksperyment dziesięć razy z różnymi losowymi podziałami, aby uniknąć anomalii. Następnie porównali tradycyjne modele uczenia maszynowego — takie jak regresja logistyczna i gradient boosting z prostymi cechami tekstowymi — z szerokim spektrum nowoczesnych dużych modeli językowych, w tym z najnowszymi otwartymi modelami z rodzin Llama, Qwen, Phi, Jamba i DeepSeek. Wszystkie duże modele językowe użyto „od ręki” w trybie zero‑shot: otrzymały instrukcję zadania i tekst, ale nie były dodatkowo trenowane na konkretnych kategoriach.

Pomiary zużycia energii, a nie tylko poprawnych odpowiedzi
Większość artykułów o SI eksponuje dokładność i niewiele poza tym. Tutaj autorzy mierzą nie tylko jak często dany model poprawnie klasyfikuje tekst, lecz także ile energii zużywa przy tym i ile czasu to zajmuje. Eksperymenty przeprowadzono na trzech klastrach wysokowydajnych obliczeń wyposażonych w różne generacje kart NVIDIA. Korzystając z narzędzia CodeCarbon, oszacowali moc pobieraną przez procesory, karty graficzne i pamięć podczas fazy inferencji — momentu, gdy modele są faktycznie używane do predykcji. Skupili się na warunkach „warm start”, które odzwierciedlają rzeczywiste wdrożenia, gdzie model pozostaje załadowany w pamięci i przetwarza wiele dokumentów kolejno.
Takie ustawienie pozwala im zbadać kilka praktycznych pytań: czy duże modele są zawsze bardziej dokładne? Czy więcej GPU skraca czas bez obniżenia zużycia energii? Jak bardzo wybór sprzętu ma znaczenie? I czy prosty pomiar czasu wykonywania — rzeczywisty czas zegarowy potrzebny modelowi — może posłużyć jako przybliżenie jego zużycia energii, gdy brak bezpośrednich pomiarów?
Mniejsze modele, niższe rachunki
Główne odkrycie jest uderzające: dla zbioru danych o odpadach promieniotwórczych tradycyjny model liniowy oparty na wcześniej obliczonych osadzeniach zdań jest jednocześnie najdokładniejszy i znacznie bardziej energooszczędny niż jakikolwiek z testowanych dużych modeli językowych. Nawet najprostsze modele tradycyjne przewyższały kilka dużych modeli, zużywając przy tym minimalne ilości energii. Natomiast niektóre z największych modeli, szczególnie te z dodatkowymi wewnętrznymi krokami „rozumowania”, zużywały setki do tysięcy razy więcej prądu, nie dając lepszych wyników.
Analiza różnych konfiguracji sprzętowych pokazuje, że to GPU dominuje w zużyciu energii, gdy w grę wchodzą duże modele. Dodanie większej liczby GPU przyspiesza inferencję, ale zazwyczaj nie zmniejsza całkowitego zużycia energii, a rozproszenie modelu na wiele węzłów obliczeniowych często pogarsza sytuację z powodu kosztów komunikacji. Gdy autorzy przyjrzeli się kilku innym zbiorom danych poza przypadkiem odpadów jądrowych — tematy wiadomości, recenzje klientów, sentyment filmów i emocje — obraz okazał się bardziej zniuansowany: w niektórych zadaniach duże modele językowe osiągały wyraźnie wyższą dokładność, lecz ta poprawa często wiązała się z wysokimi kosztami energetycznymi. W każdym badanym ustawieniu zużycie energii skalowało się niemal liniowo z czasem pracy, co oznacza, że długość działania modelu jest bardzo dobrym przybliżeniem jego zapotrzebowania na moc na danym sprzęcie.

W stronę decyzji SI świadomych klimatu
Ponad samymi liczbami, artykuł argumentuje, że zrównoważoną SI należy oceniać co najmniej w dwóch oddzielnych wymiarach: jak dobrze wykonuje zadanie i ile zasobów zużywa. Większe nie znaczy automatycznie lepsze, a domyślne poleganie na masywnych modelach ogólnego przeznaczenia do rutynowej klasyfikacji grozi niepotrzebnymi emisjami, wyższymi kosztami operacyjnymi i dłuższym czasem przetwarzania. Autorzy zalecają, aby organizacje zaczynały od przejrzystych, lekkich modeli jako punktów odniesienia, sięgały po większe modele językowe tylko wtedy, gdy wyraźnie poprawiają dokładność, i zawsze ważyły tę poprawę względem zapotrzebowania na energię i sprzęt.
Co to oznacza dla codziennych systemów
Dla czytelników niebędących specjalistami przesłanie jest jasne: gdy system SI oznacza Twój e-mail, kieruje Twoją skargę lub klasyfikuje dokument, starannie dobrany mały model może służyć równie dobrze jak gigantyczny — przy tym być tańszy, szybszy i bardziej przyjazny dla planety. Pokazując, że zużycie energii może różnić się o sześć rzędów wielkości przy podobnej dokładności i że proste pomiary czasu mogą przybliżyć potrzeby energetyczne, to badanie oferuje praktyczny zestaw narzędzi do podejmowania bardziej świadomych klimatycznie decyzji dotyczących SI w administracji i nie tylko.
Cytowanie: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0
Słowa kluczowe: energooszczędna SI, klasyfikacja tekstu, duże modele językowe, zrównoważone przetwarzanie, dane administracji publicznej