Clear Sky Science · ar
تسريع عملية تعلم خوارزميات التعلم التعزيزي العميق في إعادة تكوين شبكات التوزيع باستخدام طريقة إعادة تشغيل مبتكرة
شبكات كهربائية أذكى لحياة يومية أفضل
الكهرباء موثوقة للغاية في أماكن كثيرة لدرجة أننا نادراً ما نفكر في كيفية وصولها إلى منازلنا ومواقع عملنا. ومع ذلك، خلف الكواليس، تتولى شركات الطاقة باستمرار موازنة أي الخطوط نشطة حتى تتمكن من إيصال الطاقة بأقل هدر ممكن. يستعرض هذا البحث طريقة جديدة لتمكين نظام ذكاء اصطناعي من أن يتعلم من تلقاء نفسه كيفية إعادة تكوين شبكات التوزيع المحلية لتقليل الخسائر، والحفاظ على تيارات الفولتية ضمن مستويات صحية، والتفاعل بسرعة مع ظروف متغيرة مثل الطاقة الشمسية وتقلبات الطلب اليومية.

لماذا تحتاج خطوط الطاقة إلى خطة أفضل
في شبكة توزيع نموذجية، تتدفق الكهرباء من محطة فرعية عبر شبكة من الخطوط والمفاتيح إلى آلاف المستهلكين. بعض المفاتيح تكون عادة مغلقة، وأخرى تُترك مفتوحة بحيث يبدو نمط الخطوط كهيكل شجري بدلاً من شبكة متشابكة، ما يساعد على حماية المعدات وتبسيط التشغيل. مع مرور الوقت، صمّم المهندسون العديد من الخوارزميات الرياضية والمستوحاة من الطبيعة لتحديد أي المفاتيح يجب أن تكون مفتوحة أو مغلقة لتقليل فقدان الطاقة والحفاظ على الفولتية ضمن حدود آمنة. تعمل هذه الطرق، لكنها غالباً ما تعتمد على نماذج مفصلة، وقد تتطلب وقت حسابي كبير، وتحتاج إلى إعادة تشغيل كلما تغيرت الظروف.
تمكين وكيل ذكاء اصطناعي من التعلم بالتجربة والخطأ
بدلاً من ذلك، يتعامل المؤلفون مع الشبكة كملعب تعلّم لوكيل تعلم تعزيزي عميق، وهو نوع من الذكاء الاصطناعي يتحسن عبر التجربة والخطأ. في كل خطوة، يراقب الوكيل الحالة الحالية للشبكة: الفولتيات عند جميع الحافلات وحالة كل خط. ثم يختار أي خط يفتح في كل حلقة من الشبكة ويتلقى درجة بناءً على مقدار الطاقة الإجمالية المفقودة ومدى انحراف أي فولتية عن قيمتها المثالية. عبر العديد من الحلقات المحاكاة، يكتشف الوكيل تدريجياً أي تركيبات من أوضاع المفاتيح تميل إلى إنتاج خسائر منخفضة وفولتيات مستقرة، دون أن يُعرَض عليه معادلات تدفق القدرة الأساسية.
تفكيك لغز كبير إلى حلقات
عقبة رئيسية هي العدد الهائل من إعدادات المفاتيح الممكنة في شبكة توزيع حقيقية؛ إذ يتسع عدد الإجراءات بشكل كبير مع إضافة المزيد من الخطوط. لمواجهة ذلك، يقدم البحث استراتيجية قائمة على الحلقات. بدلاً من وجود متخذ قرار عملاق واحد يختار بين كل الخطوط مرة واحدة، تُقسم الشبكة إلى حلقات. يخصص لكل حلقة شبكة تعليمية مخصصة وتكون مسؤولة فقط عن تحديد أي خط يُفتح داخل تلك الحلقة. يُعدّل المؤلفون قواعد التعلم الاعتيادية بحيث عندما تختار حلقة ما خطاً مشتركاً مع حلقة أخرى، تعامل الحلقات اللاحقة هذا الخط تلقائياً كغير متاح. تُمكّن هذه التنسيقية النظام من احترام القيود الفيزيائية للشبكة مع الحفاظ على مساحة قرار كل متعلم ضمن نطاق يمكن إدارته.

تذكر التجارب الأكثر قيمة فقط
حتى مع تقسيم الشبكة إلى حلقات، قد يكون التعلم بطيئاً إذا عولجت كل تجربة سابقة على أنها متساوية القيمة. لذلك صمّم المؤلفون آلية جديدة تُدعى «إعادة تشغيل الخبرات بناءً على الخسارة». أثناء التدريب، يخزن الوكيل حلقات كاملة—سلاسل كاملة من الإجراءات والحالات الناتجة للشبكة—في الذاكرة. بعد كل حلقة، تُقارن الخسارة النهائية للطاقة مع أفضل الخبرات المرصودة حتى الآن. تُنسخ إلى مخزن خاص فقط الحلقات التي تقع ضمن أعلى بضعة بالمئات. عندما يدرب الوكيل شبكاته العصبية، يسحب بعض الأمثلة من هذه المجموعة النخبوية وبعضها من الخبرات العادية، محققاً توازناً بين التركيز على الأنماط الواعدة وتجنُّب الانحياز. تساعد هذه إعادة التشغيل المستهدفة الوكيل على التقارب أسرع نحو استراتيجيات عالية الجودة.
إثبات الفكرة على شبكات اختبار واقعية
يختبر الباحثون منهجهم على ثلاثة أنظمة معيارية معروفة تحتوي على 33 و69 و119 حافلة، بما في ذلك نسخ مزودة بألواح شمسية على الأسطح وطلب يتغير زمنياً على مدار يوم كامل. يقارنون عدة متغيرات من التعلم العميق—بوجود أو بدون مخزن الإعادة الجديد—مع طرق ذكاء اصطناعي وطرق رياضية سابقة. عبر جميع الشبكات، تقلل الوكلاء القائمين على الحلقات والذين يستخدمون إعادة التشغيل المركزة على الخسارة بشكل ثابت خسائر الطاقة أكثر من نظرائهم الأبسط وتضاهى أو تفوق أفضل التقنيات القائمة. كما يفعلون ذلك بزمن حسابي تنافسي أو أفضل بعد اكتمال التدريب، وهو أمر حاسم لإعادة التكوين في الزمن الحقيقي أو المتكررة.
ماذا يعني هذا للشبكات المستقبلية
بعبارات بسيطة، تُظهر الدراسة أن نظام تعلم مصمم بعناية يمكن أن يعلّم نفسه كيفية إعادة ترتيب «طرق» شبكة الطاقة بحيث تسافر الكهرباء بكفاءة أكبر وتظل ضمن حدود آمنة، حتى مع تغيّر الطاقة الشمسية والطلب طوال اليوم. من خلال تقسيم المشكلة إلى حلقات والتدريب على أنجح الخبرات الماضية، يتجنب الأسلوب التبسيطات الخشنة مع الحفاظ على ممارسية التعلم. وعلى الرغم من أن التدريب لا يزال يستغرق وقتاً للشبكات الكبيرة جداً، فإن هذا النهج يشير إلى أنظمة توزيع مستقبلية حيث تقوم وكلاء ذكية بضبط إعدادات المفاتيح في الخلفية بشكل مستمر، تقصُّ الخسائر وتدعم الطاقة المتجددة وتجعل الطاقة لدينا أكثر موثوقية واقتصادية بهدوء.
الاستشهاد: Ghaemipour, A., Mashhadi, H.R. & Mostafavi, S.H. Accelerating the learning process of deep reinforcement learning algorithms in distribution network reconfiguration using an innovative replay method. Sci Rep 16, 12660 (2026). https://doi.org/10.1038/s41598-026-40508-4
الكلمات المفتاحية: توزيع الطاقة, الشبكة الذكية, التعلم التعزيزي, تحسين الشبكات, تكامل الطاقة الشمسية