Clear Sky Science · tr

Metin sınıflandırma çıkarımında enerji tüketimi ile doğruluğun karşılaştırılması

· Dizine geri dön

Neden Çok Enerji Tüketen Yapay Zeka Önemli

Sohbet botları ve akıllı belge araçlarının perde arkasında, bilgisayarlar sessizce elektrik tüketiyor. Büyük dil modelleri büyüdükçe ve daha yaygın hale geldikçe, bunların enerji ihtiyacı iklim hedefleri ve kamu bütçeleri açısından soru işaretleri yaratıyor. Bu makale basit ama hayati bir soruyu gündeme getiriyor: metinleri sıralamak ve etiketlemek için yapay zekâ kullandığımızda gerçekten en büyük modellere mi ihtiyaç var, yoksa daha küçük, daha hafif araçlar aynı işi çok daha az enerjiyle yapabilir mi?

Gerçek Şikayetleri Sınıflandırmak

Yazarlar çalışmalarını Alman kamu yönetiminden somut bir görevle temellendiriyor: vatandaşların yüksek düzeyde radyoaktif atıkların nerede depolanacağına dair yazılı itirazlarının işlenmesi. Yüzlerce kısa beyan, veri sorunları veya saha gereksinimleri gibi kategorilere gruplanmalıydı ki ilgili uzmanlara iletilebilsin. Bu, hükümetlerin, şirketlerin ve STK’ların e-postaları, destek taleplerini veya kamu yorumlarını önceliklendirirken karşılaştığı klasik bir metin sınıflandırma problemi.

Bu çalışmayı incelemek için araştırmacılar 378 etiketli gönderiden oluşan temizlenmiş bir açık veri kümesi kullandı. Veriyi eğitim ve test için eşit ikiye böldüler ve şans faktörlerini elimine etmek için her deneyi farklı rasgele bölmelerle on kez tekrarladılar. Ardından basit metin özellikleriyle beslenen lojistik regresyon ve gradyan artırma gibi geleneksel makine öğrenimi modellerini; Llama, Qwen, Phi, Jamba ve DeepSeek ailelerinden güncel açık modeller de dahil olmak üzere çok çeşitli modern büyük dil modelleriyle karşılaştırdılar. Tüm büyük dil modelleri, özel kategoriler üzerinde ek eğitim almadan, “sıfır atış” modunda yani kutudan çıktığı haliyle kullanıldı: göreve ilişkin talimatlar ve metin verildi, ancak modele ek eğitim uygulanmadı.

Figure 1
Figure 1.

Sadece Doğru Cevapları Değil, Elektriği de Ölçmek

Çoğu yapay zekâ makalesi doğruluğu vurgular, başka pek az şeyi ölçer. Burada yazarlar her modelin metni ne sıklıkla doğru sınıflandırdığını ölçmenin ötesine geçip, bunu yaparken ne kadar enerji tükettiklerini ve ne kadar sürdüğünü de hesaplıyor. Deneyleri farklı nesil NVIDIA GPU’larla donatılmış üç yüksek performanslı hesaplama kümesinde çalıştırıyorlar. CodeCarbon araç takımı kullanarak, çıkarım aşaması—yani modellerin tahmin yapmak için fiilen kullanıldığı an—sırasında işlemciler, grafik kartları ve belleğin çektikleri gücü tahmin ediyorlar. Gerçek konuşlandırmaları yansıtan, bir modelin bellekte yüklü kaldığı ve birçok belgeyi ardışık olarak işlediği “sıcak başlangıç” koşullarına odaklanıyorlar.

Bu kurulum birkaç pratik soruyu araştırmalarına imkân veriyor: Büyük modeller her zaman daha mı doğru? Daha fazla GPU süreyi azaltırken enerjiyi tasarruf ettiriyor mu? Donanım seçimi ne kadar önemli? Ve doğrudan ölçümler yoksa, bir modelin çalışma süresi—saatten geçen duvar zamanı—enerji kullanımı için kaba bir vekil olarak kullanılabilir mi?

Daha Küçük Modeller, Daha Küçük Faturalar

Ana bulgu çarpıcı: radyoaktif atık veri kümesi için önceden hesaplanmış cümle gömme vektörleri üzerine kurulmuş geleneksel bir lineer model hem en doğru sonuçları veriyor hem de test edilen hiçbir büyük dil modelinden daha az enerji harcıyor. En basit geleneksel modeller bile çok az enerji tüketirken birkaç büyük modeli geride bırakıyor. Buna karşılık, özellikle ek içsel “kognitif” adımlar içeren bazı en büyük modeller, daha iyi sonuç vermeksizin yüzlerce ila binlerce kat daha fazla elektrik tüketiyor.

Farklı donanım ayarlarına bakıldığında, büyük modeller söz konusu olduğunda enerji kullanımında GPU’nun hakim olduğu görülüyor. Daha fazla GPU eklemek çıkarımı hızlandırıyor fakat genellikle toplam enerjiyi azaltmıyor ve bir modeli birden fazla bilgisayar düğümüne yaymak iletişim yükü nedeniyle işleri daha da kötüleştiriyor. Yazarlar nükleer atık vakasının ötesinde—haber konuları, müşteri yorumları, film duyarlılığı ve duygular gibi—birden çok veri kümesini incelediklerinde daha nüanslı bir tablo ortaya çıkıyor: bazı görevlerde büyük dil modelleri belirgin şekilde daha yüksek doğruluk elde edebiliyor, ancak bu iyileşme genellikle yüksek enerji maliyetiyle geliyor. Her durumda enerji kullanımı çalışma süresiyle neredeyse doğrusal ölçekleniyor; yani bir modelin ne kadar sürdüğü, belirli bir makinede ne kadar güç çektiğinin çok iyi bir göstergesi oluyor.

Figure 2
Figure 2.

İklim Bilinçli Yapay Zeka Seçimlerine Doğru

Rakamların ötesinde makale, sürdürülebilir yapay zekânın en az iki ayrı eksende değerlendirilmesi gerektiğini savunuyor: bir görevi ne kadar iyi yaptığı ve kaç kaynak tükettiği. Daha büyük olmak otomatik olarak daha iyi demek değil ve rutin sınıflandırmalar için varsayılan olarak devasa genel amaçlı modellere güvenmek gereksiz emisyonlar, daha yüksek işletme maliyetleri ve daha uzun işlem süreleri riski taşıyor. Yazarlar kuruluşlara şeffaf, hafif modellerle başlangıç yapmalarını; doğruluğu kesinlikle iyileştirdikleri gösterildiğinde daha büyük dil modellerine geçmelerini ve her zaman bu kazancı enerji ve donanım talepleriyle tartmalarını öneriyor.

Günlük Sistemler İçin Ne Anlama Geliyor

Halk için mesaj net: bir yapay zekâ sistemi e-postanızı etiketlerken, şikayetinizi yönlendirirken veya bir belgeyi sınıflandırırken, özenle seçilmiş küçük bir model size bir dev model kadar iyi hizmet edebilir—ayrıca daha ucuz, daha hızlı ve gezegene daha nazik olur. Benzer doğruluk için enerji kullanımının altı mertebe farklılık gösterebildiğini ve basit zamanlama ölçümlerinin güç gereksinimlerini yaklaşık olarak tahmin edebileceğini gösteren bu çalışma, hükümet ve ötesinde daha iklim bilincine sahip yapay zekâ kararları için pratik bir araç seti sunuyor.

Atıf: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0

Anahtar kelimeler: enerji verimli yapay zeka, metin sınıflandırma, büyük dil modelleri, sürdürülebilir bilişim, kamu yönetimi verileri