Clear Sky Science · ar

تحسين أداء الشبكات العصبية العميقة عبر أخذ عينات

· العودة إلى الفهرس

ذكاء اصطناعي أذكى بوحدات تشبه قلبة عملة صغيرة

مع تزايد قدرة الذكاء الاصطناعي، ازداد أيضاً طلبه على الطاقة. تدريب وتشغيل نماذج الصور واللغة الحديثة قد يستهلك كهرباء بمقدار يكافئ بلداً صغيراً. تستكشف هذه الورقة فكرة تبدو عكسية: بدلاً من جعل الشبكات العصبية أكثر دقة وتعقيداً، قد نجعل لبناتها أبسط وأكثر ضوضاءً—أشبه بقلبات عملة رقمية—ومن ثم نستخدم أخذ عينات ذكيًا للحصول على نتائج مساوية أو أفضل مع توفير الطاقة.

من دوائر دقيقة إلى أدمغة احتمالية

تُستخدم في معظم الشبكات العصبية العميقة الحالية وحدات «حتمية»: إدخال نفس القيم يعطي دائماً نفس الناتج. يركز المؤلفون على بديل يُسمى البتات الاحتمالية، أو p-bits. يتصرف كل p-bit مثل عملة صغيرة منحازة تتقلب بين 0 و1 وفق احتمالات تحددها مدخلاته. عبر أخذ عدة عينات من نفس شبكة الـ p-bits ومتوسط نواتجها، يمكن للنظام تقريب سلوك متعدد البتات الغني دون تخزين أو معالجة أعداد دقيقة كثيرة. تربط هذه الفكرة الذكاء الاصطناعي الحديث بآلات إيزينغ وبولتزمان القديمة، حيث كانت الوحدات الاحتمالية معروفة بالفعل بكفاءتها في مسائل التحسين والأخذ بالعينات.

Figure 1
الشكل 1.

العديد من التخمينات السريعة بدلاً من إجابة واحدة ثقيلة

تطرح الدراسة سؤالاً بسيطاً وعملياً: إذا أردنا دقة أفضل، هل من الأرخص زيادة الدقة الرقمية لكل خلية عصبية، أم إبقاء الخلايا بسيطة للغاية وأخذ عينات متعددة بدلاً من ذلك؟ يبني المؤلفون صيغة طاقة عامة تفصل تكلفة عملية أساسية واحدة في الشبكة العصبية إلى أربعة أجزاء: قراءة الأوزان من الذاكرة، قراءة وكتابة التفعيلات، تجميع المدخلات (المشبك)، وتطبيق اللاخطية (الخلية العصبية). والأهم أن الأوزان يمكن قراءتها مرة واحدة ثم إعادة استخدامها لتوليد عدة عينات، لذا فإن التكلفة السائدة—وصول الذاكرة—يمكن توزيعها على عدة تشغيلات. هذا يعني أن عشر عينات أقل بكثير من كونها أغلى بعشر مرات من عينة واحدة.

اختبار الشبكات الاحتمالية على الصور

لفحص جدوى هذا التبادل عملياً، يختبر الباحثون الشبكات العصبية العميقة الاحتمالية (p-DNNs) على تصنيف الصور (CIFAR-10) وتوليد الصور (وجوه من CelebA وأرقام من MNIST). يستبدلون إشارات التفعيل التقليدية ومتعددة البتات ببتات p-bits ذات بت واحد، ويدربون الشبكات بطريقة «واعية بالعينة» حيث تُحتسب دالة الخسارة من متوسط عدة مروريات عشوائية أمامية. في التصنيف، يجدون أن حتى مع تفعيلات ببت واحد، عينة واحدة يمكن أن تضاهي دقة نموذج بدقة كاملة، وعينتان تتفوقان عليه. مع مزيد من العينات، تقترب شبكات p-DNN ذات البت الواحد من دقة الشبكات الحتمية ذات 3 بت. في توليد الصور، يؤدي الاستبدال البسيط للتفعيلات ببتات p إلى صور ضوضائية، لكن إعادة التدريب مع العناصر العشوائية الحقيقية ومعالجة الطبقة الأخيرة بعناية تنتج وجوهًا بجودة تقترب من الأساس بدقة 32 بت كما تُقاس بمقياس مسافة معيارية.

تكاليف الطاقة والعتاد الحقيقي

يتجاوز المؤلفون المحاكاة ويفحصون الطاقة على عتاد حقيقي. باستخدام بيانات من شريحة 65 نانومتر بُنيت للدوائر الاحتمالية ومحاكيات دوائر إضافية، يبيّنون أن أحمال العمل الحديثة الكبيرة للذكاء الاصطناعي تهيمن عليها طاقة الذاكرة، لا الحساب. وبما أن p-DNNs تبسط خطوة الحساب الرئيسية بشكل كبير—من الضرب والجمع الكامل إلى جمعات بسيطة مع تفعيلات 1-بت—فإن الحوسبة الإضافية اللازمة لأخذ عدد قليل من العينات تغير إجمالي الطاقة بالكاد حين تُخزَّن الأوزان في ذاكرة خارجية تستهلك طاقة كبيرة. يتحققون من هذه التنبؤات على تنفيذ FPGA لشبكة مولدة للصور: النسخة الاحتمالية تقلل الطاقة الكلية لكل استدلال بنحو 2.5 مرة مقارنة بتصميم قياسي، مع إنتاج صور أرقام قابلة للمقارنة. إن تكلفة توليد الأعداد العشوائية والمقارنات صغيرة للغاية مقارنةً بالذاكرة والعمليات الحسابية الأساسية.

Figure 2
الشكل 2.

لماذا يهم قابلية ضبط عدد العينات

ميزة مميزة للشبكات الاحتمالية هي أن الدقة يمكن ضبطها أثناء التشغيل بتغيير عدد العينات. يمكن لمحرك p-DNN ببت واحد أن يتصرف كنموذج كمّي 1- أو 2- أو 3-بت اعتمادًا على عدد العينات التي يأخذها، دون إعادة تصميم العتاد. هذه المرونة جذابة بشكل خاص لنماذج اللغة الكبيرة، حيث تُخفض دقة الأوزان بالفعل إلى بضعة بتات، لكن تقليل دقة التفعيلات أصعب دون الإضرار بالجودة. يقدّم إطار العمل في هذه الورقة طريقة لتقدير، لأي نموذج من هذا النوع، ما إذا كان أخذ عينات إضافية يستحق الطاقة مقارنةً بزيادة عرض البتات.

مسار جديد إلى ذكاء اصطناعي فعال ومرن

بعبارات بسيطة، تُظهر الورقة أن الوحدات العصبية «المضطربة» يمكن استغلالها بدلاً من تجنّبها. بمعاملة كل مرور أمامي كخمنٍ تقريبي رخيص ثم متوسط عدد صغير من هذه التخمينات، يمكن للشبكات الوصول إلى أداء يقارب دقة كاملة بحسابات أبسط بكثير وتراكُم طاقة معتدل. وبما أن الذاكرة تهيمن على فاتورة الطاقة، فتكلفة أخذ عينات إضافية صغيرة، خاصة عندما تُقرأ الأوزان مرة واحدة وتُعاد استخدامها. وهذا يقترح طريقًا واعدًا لعتاد الذكاء الاصطناعي لا يكون فقط أكثر كفاءة في الطاقة، بل أيضاً قابلًا للتكيف أثناء التشغيل—زيادة أو خفض العينات للموازنة بين الدقة وعمر البطارية أو السرعة حسب الحاجة.

الاستشهاد: Ghantasala, L.A., Li, MC., Jaiswal, R. et al. Improving deep neural network performance through sampling. npj Unconv. Comput. 3, 18 (2026). https://doi.org/10.1038/s44335-026-00063-7

الكلمات المفتاحية: الشبكات العصبية الاحتمالية, الذكاء الاصطناعي موفّر الطاقة, الاستدلال القائم على أخذ العينات, الحوسبة منخفضة الدقة, عتاد التعلم العميق