Clear Sky Science · ar

الفاصل الزمني بين المكافآت يتحكم في معدل التعلم السلوكي والدوباميني

2026-02-12 · العودة إلى الفهرس

لماذا يهم إيقاع المكافآت

ينبه المدرّسون إلى أن الحشر في اللحظة الأخيرة غير مجدٍ، ومدرّبو الحيوانات يفرّقون المكافآت—لكن لماذا تساعد فترات الراحة على التعلم؟ تطرح هذه الدراسة سؤالاً بسيطاً بشكل مفاجئ وله آثار كبيرة: عندما تحاول أن تتعلم أن إشارة ما تنبئ بمكافأة، هل من الأفضل الحصول على مكافآت سريعة كثيرة أم مكافآت أقل لكنها متباعدة أكثر؟ من خلال توقيت قطرات ماء السكر للفئران وقياس سلوكهم وكيمياء أدمغتهم بعناية، يكشف الباحثون قاعدة رياضية تظهر أن الزمن بين المكافآت، وليس عدد التجارب الخام، هو الذي يتحكم في سرعة حدوث التعلم.

التعلم بقليل من المكافآت لكنها متباعدة بشكل أفضل

درّب الفريق فئراناً عطشى ومثبّتة الرأس على ربط نغمة قصيرة برشفة صغيرة من سائل محلى. سمع جميع الفئران الصوت نفسه وتلقّت نفس المكافأة بعده بفترة وجيزة، لكن الوقت حتى دورة النغمة-والمكافأة التالية اختلف اختلافاً كبيراً—من نصف دقيقة حتى عشر دقائق، وفي مجموعة واحدة ساعة كاملة. الفئران التي كانت فترات الراحة قصيرة شهدت أزواج إشارة–مكافأة كثيرة خلال اليوم، بينما شهدت الفئران ذات الفترات الطويلة بضعة أزواج فقط. حدسياً، قد تتوقع أن الجدول المزدحم ينتج تعلمًا أسرع. بدلاً من ذلك، حدث العكس: عندما زادت الفواصل الزمنية عشر مرات، احتاجت الفئران نحو عشر مرات أقل من تجارب الإشارة–المكافأة لاكتشاف الترابط.

نفس مقدار التعلم في نفس الزمن، بغض النظر عن عدد التجارب

على الرغم من أن الفئران المتباعدة احتاجت إلى تجارب أقل بكثير، لم تتعلم فعلياً أسرع بالزمن الفعلي. عندما حسب الباحثون عدد الدقائق من التكييف التي مرت قبل أن تبدأ كل فأر بلعق العلبة بانتظام توقعاً للمكافأة، كان إجمالي وقت التعلم شبه متطابق عبر مجموعات اختلفت فترات الراحة بينها بمقدار 20 ضعفاً. بمعنى آخر، فإن تمديد الفاصل الزمني بين المكافآت جعل كل تجربة فردية أكثر تأثيراً على التعلم، وبنسبة تتناسب طردياً مع وقت الانتظار. إزالة تسعة من كل عشرة تجارب من جدول تدريب مكتظ لم يؤثر عملياً على المدة التي استغرقها تكوين الارتباط، طالما أن الزمن الكلي المنقضي في بيئة التدريب بقي نفسه.

إشارات الدوبامين تتبع نفس القاعدة

لمعرفة ما يجري داخل الدماغ، استخدم العلماء مستشعرًا فلوريًا لتعقّب الدوبامين، رسول كيميائي طالما اعتُقد أنه يشير إلى أخطاء توقع المكافأة—أي الفرق بين المكافآت المتوقعة والفعلية. مع تقدم التدريب، انحرفت اندفاعات الدوبامين القصيرة تدريجياً من المكافأة نفسها إلى النغمة المتنبئة. والأهم من ذلك، أن استجابات الدوبامين أظهرت نفس قاعدة التوقيت كما في السلوك: عندما كانت المكافآت متباعدة بعشر مرات، ظهر ازدياد الدوبامين تجاه الإشارة بعد نحو عُشر عدد تجارب الإشارة–المكافأة، ومع ذلك بعد نحو نفس مقدار الزمن الفعلي. وظل هذا النمط صحيحاً ليس فقط للمكافآت السارة ولكن أيضاً عندما تنبأت النغمة بصدمة خفيفة، مما يشير إلى أن التعلم الإيجابي والسلبي على حد سواء يشتركان في نفس القاعدة القائمة على الزمن.

طريقة جديدة يحسب بها الدماغ السببية

تصور النظريات الكلاسيكية التعلم كعملية قائمة على التجربة تلو الأخرى حيث كل تجربة تدفع قيمة داخلية لأعلى أو لأسفل بنسبة ثابتة. في هذه النماذج “المعتمدة على التجربة”، ينبغي أن يؤدي رؤية أزواج الإشارة والنتيجة أكثر خلال فترة معينة دائماً إلى تسريع التعلم. النتائج الجديدة تتعارض مع هذه الفكرة وتدعم بدلاً من ذلك إطاراً مختلفاً يُسمى ANCCR، حيث يحدّث الدماغ اعتقاداته فقط عندما يحدث نتيجة فعلية ثم يعمل رجوعاً بالزمن لمنح الفضل للإشارات السابقة. وبما أن هذه التحديثات تُفعّل عند كل مكافأة، يتنبأ النموذج بأن التغير لكل مكافأة يجب أن يزداد بنسبة طردية مع المدة التي مرّت منذ المكافأة السابقة. هذا يفسر رياضياً لماذا تجعل الفواصل الأطول بين المكافآت كل تجربة أكثر تأثيراً، بينما يترك التعلم الإجمالي بعد مدة ثابتة دون تغيير.

إعادة التفكير في "التدريب يصنع الإتقان"

من خلال إظهار أن المدة بين المكافآت—وليس عدد التجارب الصرف—تحكم معدلات التعلم السلوكي والدوباميني، يتحدى هذا العمل الافتراض الشائع بأن المزيد من التكرارات يعني بالضرورة تعلمًا أسرع. بالنسبة للترابطات البسيطة بين الإشارات والنتائج، قد لا يقدم حشر تجارب إضافية فائدة حقيقية إذا جاءت المكافآت قريبة جداً من بعضها. بدلاً من ذلك، يمكن للتباعد السليم أن يسمح لنظام الدوبامين في الدماغ بإجراء تحديثات أكبر وأكثر إفادة من كل نتيجة. تدعو النتائج إلى إعادة تقييم لكيفية نمذجة التعلم في الدماغ وتلمّح إلى أنه في كثير من الحالات قد يكون تباعد الخبرة بذكاء مهمًا بقدر أو أكثر من التدريب المتكرر.

الاستشهاد: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

الكلمات المفتاحية: دوبامين, تعلم المكافأة, تأثير التباعد, التكييف الترابطي, تعلم التعزيز