Clear Sky Science · ar

خوارزمية DDPG ذات الأولوية المعدلة لضبط تشكيل الحزم وتحسين طور سطح ذكي قابل لإعادة التكوين في أنظمة الهبوط متعددة الإرسال أحادي الاستقبال (MISO)

· العودة إلى الفهرس

أسطح ذكية للموجة القادمة من الاتصالات اللاسلكية

مع تزايد طلب هواتفنا وسياراتنا وأجهزة الاستشعار على اتصالات أسرع وأكثر موثوقية، تُدفع شبكاتنا اللاسلكية الحالية إلى حدودها. تستكشف هذه الدراسة طريقة جديدة لجعل شبكات 6G المستقبلية أكثر خضرة واعتمادية من خلال دمج أسطح عاكسة "ذكية" على المباني مع تقنية ذكاء اصطناعي تتعلم ذاتيًا كيفية توجيه إشارات الراديو باستخدام طاقة أقل.

تحويل الجدران إلى مرايا مفيدة للإشارة

يجب أن تخدم أنظمة 6G المستقبلية أعدادًا هائلة من الأجهزة بمعدلات بيانات عالية، وموثوقية قوية، وزمن تأخير منخفض جدًا. تلبية كل هذه المتطلبات باستخدام محطات قاعدية تقليدية فقط ستتطلب الكثير من العتاد والطاقة. توفر الأسطح الذكية القابلة لإعادة التكوين (RIS) نهجًا مختلفًا: ألواح مغطاة بالعديد من العناصر الصغيرة قليلة الطاقة التي يمكنها عكس موجات الراديو الواردة في اتجاهات مسيطَر عليها، مثل مرآة قابلة للبرمجة. من خلال اختيار طور هذه الانعكاسات بعناية، يمكن لـ RIS إعادة توجيه الإشارات حول العوائق، وتقوية الروابط الضعيفة، وتقليل التداخل، وكل ذلك دون الإرسال النشط للطاقة الخاصة بها. هذا يمنح مصممي الشبكات مقبضًا جديدًا قويًا للتدوير عند محاولة توسيع التغطية وتحسين الكفاءة.

Figure 1
شكل 1.

توازن صعب لشبكة الاتصال

الاستفادة الجيدة من RIS ليست بالأمر البسيط. يجب على المحطة القاعدية أن تقرر كيفية توجيه هوائياتها (تشكيل الحزمة)، بينما يجب على RIS ضبط طور كلٍ من عناصره العاكسة المتعددة. هذه القرارات مترابطة ارتباطًا وثيقًا، ويجب أن تفي بعدّة قيود في الوقت نفسه: الحفاظ على إجمالي القدرة المرسلة دون حد أقصى، وضمان جودة إشارة دنيا لكل مستخدم، واحترام القيود الفيزيائية لمعدات RIS. رياضيًا، مشكلة الضبط المشترك هذه شديدة اللاخطية و"غير محدبة"، مما يعني أن أدوات التحسين التقليدية تميل إلى أن تكون بطيئة أو هشة أو عالقة في حلول دون المثلى، خاصة مع كبر حجم الشبكات. بالإضافة إلى ذلك، فإن قياس حالة كل وصلة راديوية بدقة (ما يعرف بمعلومات حالة القناة) نفسه مكلف وعرضة للخطأ في بيئات النشر الحقيقية.

السماح لوكيل ذكاء اصطناعي بتعلّم كيفية تشكيل الحزم

لتجاوز هذه العقبات، يبني المؤلفون وكيلًا تعلّمًا باستخدام التعلّم المعزز العميق، وهو فرع من الذكاء الاصطناعي يكتشف فيه الوكيل استراتيجيات جيدة من خلال التجربة والخطأ مع البيئة. تُدعى طريقتهم خوارزمية سياسة الحتمية العميقة ذات التدرج المُعدلة ذات الأولوية (MP‑DDPG). تراقب هذه الخوارزمية حالة الشبكة الحالية — اتجاهات الحزم السابقة، إعدادات RIS، القدرة المستقبلة، وجودة الإشارة — ثم تختار قيمًا جديدة لتشكيل الحزم وطور RIS. بعد كل اختيار، تتلقى مكافأة تشجّع ثلاثة أمور في آن واحد: تقليل القدرة المرسلة، تحقيق أهداف جودة الخدمة للمستخدمين، واحترام حد القدرة للمحطة القاعدية. عبر تفاعلات محاكاة متكررة، يتعلم الوكيل تدريجيًا سياسة تحكم توازن هذه الأهداف دون أن يُعلم بصيغة صريحة لقناة الراديو.

تعلم أسرع بالتركيز على المهم

تكمن الابتكار الرئيسي في كيفية تعلّم الخوارزمية من تجاربها السابقة. الطرق القياسية تخزن العديد من الحالات الماضية وتأخذ عينات عشوائية منها أثناء التدريب، وهو ما قد يكون مهدراً وبطيئاً. بدلاً من ذلك، تعطي MP‑DDPG لكل تجربة مخزنة أولوية تعتمد على مكافأتها ومدى اختلاف حالتها عن أقرب جيرانها. التجارب التي تكون مفيدة ومتنوعة تُأخذ عينات منها أكثر، بينما تُتجاهل المتكررة غير المفيدة. يجعل هذا "الإعادة ذات الأولوية المعدلة" كل خطوة تعلم أكثر فائدة، مما يسرّع التقارب ويساعد الوكيل على تجنب حلول محلية سيئة. كما يحلل المؤلفون الحمل الحسابي الإضافي لهذا الأسلوب ويظهرون أنه بالرغم من تعقيد متابعة السجلات مقارنة بالطريقة الأساسية، فإن التعلم الأسرع يعوّض ذلك عمليًا.

Figure 2
شكل 2.

إشارات أكثر خضرة مع عتاد أقل

من خلال محاكاة تفصيلية لسيناريو هبوط خلوي، تقارن الدراسة MP‑DDPG مع بديلين: طريقة تحسين أسراب الجسيمات التقليدية والخوارزمية DDPG الأصلية. تصل الطريقة الجديدة باستمرار إلى قدرة مرسلة أدنى في حلقات تدريبية أقل، وتفعل ذلك باستخدام عناصر RIS أقل وهوائيات محطة قاعدية أقل لنفس مستوى الأداء. بعبارة بسيطة، تتعلم الشبكة أن تستخرج فائدة أكبر من كل لوحة عاكسة وكل هوائي. للقراء غير المتخصصين، الرسالة هي أن السماح لمتحكم ذكاء اصطناعي بضبط كل من حزم المحطة القاعدية والأسطح الذكية على الجدران القريبة يمكن أن يمكّن شبكات 6G المستقبلية من توفير إشارات قوية وموثوقة باستخدام طاقة وعتاد أقل، مما يساعد في جعل عالمنا المترابط أكثر استدامة.

الاستشهاد: Shukry, S., Fahmy, Y. Modified prioritized DDPG algorithm for joint beamforming and RIS phase optimization in MISO downlink systems. Sci Rep 16, 5942 (2026). https://doi.org/10.1038/s41598-026-36179-w

الكلمات المفتاحية: السطح الذكي القابل لإعادة التكوين, الشبكات اللاسلكية 6G, التعلّم المعزز العميق, تحسين تشكيل الحزم, شبكات موفّرة للطاقة