Clear Sky Science · ar
مقارنة استهلاك الطاقة والدقة في استدلال تصنيف النصوص
لماذا يهم استهلاك الطاقة في الذكاء الاصطناعي
خلف كواليس الدردشات الآلية وأدوات معالجة الوثائق الذكية، تحترق الكهرباء بصمت داخل الحواسيب. مع ازدياد حجم وانتشار نماذج اللغة الكبيرة، يثار السؤال عن أثرها على أهداف المناخ وميزانيات القطاع العام. يطرح هذا البحث سؤالاً بسيطاً لكنه حاسم: عند استخدام الذكاء الاصطناعي لفرز وتصنيف النصوص، هل نحتاج فعلاً إلى أكبر النماذج، أم أن أدوات أصغر وأخف قادرة على إنجاز المهمة بنفس الجودة مع استهلاك طاقة أقل بكثير؟
فرز شكاوى من العالم الحقيقي
يعتمد المؤلفون دراستهم على مهمة ملموسة من الإدارة العامة الألمانية: معالجة اعتراضات مكتوبة من مواطنين بشأن مواقع تخزين النفايات المشعة عالية المستوى. كان لا بد من تجميع مئات العبارات القصيرة في فئات مثل مشكلات البيانات أو متطلبات المواقع لإرسالها إلى الخبراء المناسبين. هذه مسألة تصنيف نصوص كلاسيكية تواجهها الحكومات والشركات والمنظمات غير الحكومية عندما تفرز الرسائل الإلكترونية أو طلبات الدعم أو التعليقات العامة.
لإجراء الدراسة، استخدم الباحثون مجموعة بيانات عامة منظفة تضم 378 مشاركة معنونة. قسموها إلى نصفين متساويين للتدريب والاختبار وكرروا كل تجربة عشر مرات مع تقسيمات عشوائية مختلفة لتجنب الصدفة. ثم قارنوا نماذج التعلم الآلي التقليدية — مثل الانحدار اللوجستي والتعزيز التدرّجي المغذّيان بميزات نصية بسيطة — بمجموعة واسعة من نماذج اللغة الكبيرة الحديثة، بما في ذلك نماذج مفتوحة حديثة من عائلات Llama وQwen وPhi وJamba وDeepSeek. استُخدمت كل نماذج اللغة الكبيرة "كما هي" في وضع الصفر تدريب (zero-shot): تلقّت تعليمات المهمة والنصوص، لكن دون تدريب إضافي على الفئات المحددة.

قياس الكهرباء، ليس الإجابات الصحيحة فقط
تركز معظم أوراق الذكاء الاصطناعي على الدقة وقليل غيرها. هنا، يقيس المؤلفون ليس فقط عدد المرات التي يصنف فيها كل نموذج النص بشكل صحيح، بل أيضاً مقدار الطاقة التي يستهلكها أثناء ذلك وكم من الوقت يستغرق. أداروا تجاربهم على ثلاث مجموعات حوسبة عالية الأداء مزوَّدة بأجيال مختلفة من وحدات معالجة الرسوميات NVIDIA. باستخدام أدوات CodeCarbon، قدروا الطاقة المسحوبة من المعالجات وبطاقات الرسوميات والذاكرة أثناء مرحلة الاستدلال — اللحظة التي تُستخدم فيها النماذج فعلياً لإصدار التوقعات. ركزوا على ظروف "البدء الدافئ" التي تحاكي النشر الفعلي، حيث يبقى النموذج محملاً في الذاكرة ويعالج العديد من الوثائق على التتابع.
تمكنهم هذه الإعدادات من استقصاء عدة أسئلة عملية: هل النماذج الكبيرة أكثر دقة دائماً؟ هل تُسرّع وحدات GPU الإضافية الاستدلال دون تقليل الطاقة؟ ما مقدار تأثير اختيار العتاد؟ وهل يمكن أن يكون زمن التشغيل البسيط — وقت الجدار الذي يحتاجه النموذج — مقياساً تقريبياً جيداً لاستهلاك الطاقة حين لا تتوفر قياسات مباشرة؟
نماذج أصغر، فواتير أقل
النتيجة الأساسية ملفتة: بالنسبة لمجموعة بيانات النفايات المشعة، كان النموذج الخطي التقليدي المبني على تمثيلات الجمل المحسوبة مسبقاً الأكثر دقة والأكثر كفاءة في استهلاك الطاقة مقارنةً بأي من نماذج اللغة الكبيرة المختبرة. حتى أبسط النماذج التقليدية تفوقت على عدة نماذج كبيرة بينما استهلكت كميات ضئيلة جداً من الطاقة. في المقابل، استهلكت بعض أكبر النماذج، خاصة تلك التي تضيف خطوات "استدلال" داخلية، مئات إلى آلاف المرات من الكهرباء دون تحقيق نتائج أفضل.
عند النظر عبر إعدادات عتاد مختلفة، تهيمن وحدات GPU على استهلاك الطاقة متى ما كانت النماذج الكبيرة متورطة. إضافة المزيد من وحدات GPU يسرّع الاستدلال لكنه عادة لا يقلل إجمالي الطاقة، وتوزيع نموذج عبر عدة عقد حاسوبية يزيد الأمر سلباً بسبب حمل الاتصال بين العقد. عند فحص مؤلفي الورقة لمجموعات بيانات إضافية تتجاوز حالة النفايات النووية — مثل مواضيع الأخبار، تقييمات العملاء، انطباع الأفلام، والعواطف — وجدوا صورة أكثر تعقيداً: في بعض المهام تحقق نماذج اللغة الكبيرة دقة أعلى بشكل ملحوظ، لكن هذا التحسن غالباً ما يأتي بتكاليف طاقة باهظة. في كل حالة تقريباً، يتناسب استهلاك الطاقة تقريباً تناسباً طردياً مع زمن التشغيل، مما يعني أن طول مدة تشغيل النموذج مقياس جيد يقدّر مقدار الطاقة التي يسحبها على جهاز معين.

نحو خيارات ذكاء اصطناعي واعية بالمناخ
بعيداً عن الأرقام، يجادل البحث بأن الذكاء الاصطناعي المستدام يجب أن يُقيَّم على محورين منفصلين على الأقل: مدى أداءه في إنجاز مهمة وما الموارد التي يستهلكها. الأكبر ليس بالضرورة أفضل تلقائياً، والاعتماد مسبقاً على نماذج عامة ضخمة للتصنيف الروتيني يعرض لصادرات انبعاثية غير ضرورية، وتكاليف تشغيل أعلى، وأزمنة معالجة أطول. يوصي المؤلفون بأن تبدأ المؤسسات بنماذج شفافة وخفيفة كأساس، وأن تلجأ إلى نماذج اللغة الأكبر فقط عندما تُظهر تحسناً واضحاً في الدقة، وأن تزن دائماً ذلك التحسن مقابل متطلبات الطاقة والعتاد.
ما الذي يعنيه هذا لأنظمة الحياة اليومية
للقراء العامين، الرسالة واضحة: عندما يصنف نظام ذكاء اصطناعي بريدك الإلكتروني أو يوجّه شكواك أو يصنف مستنداً، فقد يخدمك نموذج صغير مختار بعناية بنفس جودة نموذج ضخم — بينما يكون أرخص وأسرع وأكثر لطفاً مع الكوكب. من خلال إظهار أن استهلاك الطاقة قد يختلف بستة مراتب كبيرة لنفس الدقة تقريباً، وأن قياسات الزمن البسيطة يمكن أن تقارب احتياجات الطاقة، تقدم هذه الدراسة أدوات عملية لقرارات ذكاء اصطناعي أكثر وعيًا بالمناخ في القطاع الحكومي وما وراءه.
الاستشهاد: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0
الكلمات المفتاحية: الذكاء الاصطناعي الموفّر للطاقة, تصنيف النصوص, نماذج اللغة الكبيرة, الحوسبة المستدامة, بيانات الإدارة العامة