Clear Sky Science · ar

تحسين تدابير التدخل في الأمراض المعدية باستخدام التعلم المعزز مع بيانات جائحة كوفيد-19 في المملكة المتحدة

· العودة إلى الفهرس

أدوات ذكية لقرارات صحية صعبة

عندما يجتاح مرض جديد بلداً ما، يتعين على القادة أن يقرروا بسرعة مدى تشديد القيود على الحياة اليومية. إغلاق كل شيء قد ينقذ أرواحاً لكنه يدمر الاقتصاد؛ والتأخر في التحرك قد يؤدي إلى امتلاء المستشفيات. يستكشف هذا البحث ما إذا كان شكلٌ من أشكال الذكاء الاصطناعي، يسمى التعلم المعزز، يمكن أن يساعد الحكومات في العثور على استجابات أكثر ذكاءً وتوازناً باستخدام محاكاة مفصّلة لكيفية انتشار فيروس مثل كوفيد‑19 فعلياً عبر مجتمعات حقيقية.

محاكاة بلد داخل حاسوب

بدلاً من استخدام معادلات بسيطة تعامل الناس كأشخاص متطابقين، يبني الباحثون على نموذج Covasim الغني، وهو نموذج حاسوبي يتتبع آلاف الأفراد الافتراضيين أثناء معيشتهم وعملهم ودراستهم وتفاعلهم. كل شخص مصمَّم له عمر وموقع داخل شبكة الأسرة والمدرسة ومكان العمل، وحالة صحية قد تتغير من سليم إلى مصاب ثم متعافٍ أو متوفى. من خلال ضبط إعدادات النموذج بعناية، يجعل الفريق هذا المملكة المتحدة الافتراضية تتصرف كما فعلت الحقيقية خلال الموجة الأولى من كوفيد‑19، مطابقةً الأرقام الرسمية للحالات والوفيات من أوائل عام 2020. تُعد هذه الخطوة من المعايرة حاسمة، لأن أي استراتيجية يتعلمها الحاسوب يجب أن تنجح في عالم يشبه عالمنا، وليس في كون افتراضي مبسّط.

Figure 1
الشكل 1.

تدريب مستشار رقمي على العمل

بمجرد أن يبدأ النموذج بالتصرف مثل الواقع، يدمج الباحثون التعلم المعزز، وهو فرع من الذكاء الاصطناعي يقوم فيه «وكيل» برمجي بتجربة قرارات مراراً ويحصل على مكافآت أو عقوبات اعتماداً على النتائج. هنا، يمكن للوكيل تعديل ثلاثة مقابض رئيسية في كل أسبوع محاكًى: مدى شدة الإغلاقات الجزئية، عدد الأشخاص الذين تُجرى عليهم الاختبارات، ومدى شدة تتبُّع المخالطين. صُمم نظام المكافأة لالتقاط هدفين متنافِسين: إبقاء الإصابات والحالات الشديدة والوفيات منخفضة، وفي الوقت نفسه تقليل الضرر الاقتصادي الناجم عن إغلاق أماكن العمل وعزل الناس. عبر تشغيل آلاف السيناريوهات الوبائية المحاكية، يكتشف الوكيل أي التركيبات والتواقيت من التدابير تحقق أعلى درجة إجمالية.

إيجاد توازن أفضل من القواعد الثابتة

تقارن الدراسة عدة طرق تعلم وطرق لوصف خيارات الوكيل. أحد الأساليب التي تعامل الإجراءات كإعدادات ملساء مثل مقبض، بدلاً من قائمة صغيرة من الخيارات الثابتة، يُظهر أداءً جيداً بشكل خاص. يتعلم الاستجابة بسرعة عندما يبدأ الفيروس في الانتشار، مفروضاً قيوداً قصيرة لكنه قوية مصحوبة بفحص وتتبع مكثفين. ومع السيطرة على التفشي المحاكى، يخفف القيود مع الحفاظ على بعض الاختبارات والتتبع، ثم يعيد التشديد لفترة وجيزة إذا هددت الإصابات بالارتفاع مجدداً. هذا النمط المرن يُبقي إجمالي عدد الإصابات في النموذج عند نحو 300,000، أي أقل بكثير مما حدث تحت سياسات العالم الحقيقي المطبقة في المملكة المتحدة خلال نفس الفترة، وكذلك أقل من قاعدة بسيطة مثلاً «سبعة أيام مفتوح، سبعة أيام مغلق». وتُخفض الخسائر الاقتصادية في النموذج بأكثر من ثلثيها مقارنةً بتلك الاستراتيجية الصارمة المتناوبة.

Figure 2
الشكل 2.

التوقيت مسألة محورية

يفحص المؤلفون أيضاً كيف تؤثر هذه الاستراتيجيات المختلفة على عدد التكاثر الفعلي في الزمن الحقيقي، وهو مقياس لعدد الإصابات الجديدة التي يولدها كل حالة. في محاكياتهم، تدفع السياسة المصممة بواسطة الذكاء الاصطناعي هذا الرقم إلى ما دون القيمة الحرجة واحد قبل نحو شهر تقريباً مما فعلته الاستجابة الفعلية في المملكة المتحدة. ذلك التقدم الصغير ظاهرياً يقلل بشكل كبير من إجمالي الإصابات، مبرزاً مدى تأثير تحرك مبكر ومخطط جيداً. ويختبرون أيضاً السياسة المتعلمة في سياق مختلف كثيراً، مستخدمين بيانات من موجة كوفيد‑19 الكبيرة في هونغ كونغ عام 2022، فيجدون أن نفس الاستراتيجية لا تزال تؤدي أداءً جيداً، مما يشير إلى أن القواعد المكتسبة تلتقط مبادئ عامة بدلاً من أن تقتصر على بلد واحد فقط.

ماذا يعني ذلك لتفشيات مستقبلية

لغير المتخصصين، الرسالة الأساسية هي أننا لسنا مضطرين للاختيار عمياءً بين إنقاذ الأرواح والحفاظ على سبل العيش. من خلال الجمع بين محاكاة مفصّلة لكيفية تحرك الفيروس عبر شبكات اجتماعية حقيقية وذكاء اصطناعي يتعلم من المحاولة والخطأ، يمكن تزويد صانعي السياسات بدلائل تستند إلى البيانات تتكيف مع تغير الظروف. يؤكد المؤلفون أن هذه الأدوات ليست بديلاً للحكم البشري، بل تعمل كمساعدات قرار قوية تستكشف سيناريوهات «ماذا لو» بلايين المرات أسرع مما يمكن للبشر. ومع ظهور أوبئة جديدة، قد تساعد هذه المقاربة القادة على التحرك أبكر وبشكل أكثر دقة، مستخدمين الاختبار المستهدف والتتبع والإغلاقات الجزئية للحفاظ على المرض تحت السيطرة مع الحفاظ على أكبر قدر ممكن من الحياة الطبيعية والنشاط الاقتصادي.

الاستشهاد: Zhang, B., Chen, Y., Li, H. et al. Optimization of infectious disease intervention measures using reinforcement learning with UK COVID-19 epidemic data. Sci Rep 16, 10627 (2026). https://doi.org/10.1038/s41598-026-39377-8

الكلمات المفتاحية: سياسة كوفيد-19, التعلم المعزز, محاكاة الوباء, التدابير غير الدوائية, استراتيجية الصحة العامة