Clear Sky Science · ar
التعلّم المعزّز العميق المستوحى من السلوك البشري لتحسين المحافظ مع تجنّب الخسارة والثقة المفرطة
لماذا تهم مشاعرنا في الاستثمار الآلي
يعرف معظم الناس أن الخوف والثقة المفرطة يمكن أن تؤثرا على قراراتهم الاستثمارية، لكننا نميل إلى افتراض أن التداول الذي تقوده الحواسيب عقلاني تماماً. تتحدى هذه الدراسة تلك الفكرة عبر إظهار أن الأنظمة الآلية نفسها قد تستفيد من صفات «شبيهة بالبشر». من خلال تضمين تجنّب الخسارة (كراهية الخسائر) والثقة المفرطة بعناية داخل نظام تداول ذكاء اصطناعي حديث، يجد المؤلفون أن المحافظ يمكن أن تصبح أكثر مرونة في حالات الانهيار وأكثر فاعلية في فترات الازدهار — سواء في العملات المشفّرة أو أسهم الشركات الكبرى.

تعليم روبوتات التداول الخوف والجرأة
ينطلق الباحثون من فرع قوي من الذكاء الاصطناعي يسمّى التعلّم المعزّز العميق، حيث يتعلّم وكيل برمجي بالتجربة والخطأ كيفية إعادة توازن المحفظة مع مرور الوقت. في النسخ التقليدية، يتصرّف الوكيل كمتداولٍ عقلاني في الكتب الدراسية: يطّلع على الأسعار والمؤشرات ويختار أوزان المحفظة التي يعتقد أنها ستعود بعائد على المدى الطويل. هنا، يبقى ذلك الوكيل المحايد موجوداً، لكنه يحيط به طبقة سلوكية تُحاكي نزعتين موثّقتين للمستثمرين: تجنّب الخسارة (التفاعل بقوة أكبر مع الخسائر مقارنة بالمكاسب المماثلة) والثقة المفرطة (الثقة الزائدة في التوقعات الذاتية). بدلاً من تغيير ما يُشترى أو يُباع، تُعدّل هذه القواعد السلوكية حجم كل مركز بعد أن يحدد الوكيل المحايد الاتجاه.
كيف تعمل حزام الأمان السلوكي والتوربو
في وضع تجنّب الخسارة، يولي النظام اهتماماً خاصاً للخسائر غير المحقّقة على كل أصل. عندما يتجاوز تراجع الحيازة عتبة محدّدة مسبقاً، يقوم الإطار تلقائياً بخفض المخاطرة العامة وتحويل جزء من المحفظة إلى نقد، مع تفضيل طفيف للأصول المُتَعثّرة بما يتوافق مع سلوك كثير من المستثمرين البشر. في المقابل، في وضع الثقة المفرطة، تؤدي المكاسب القوية إلى تكبير أحجام المراكز وحتى بعض الرافعة المالية، ما يعني ركوب الاتجاهات بشكل أكثر عدوانية وأحياناً «الزيادة في الرهان» بعد تراجعات حادة إذا كان النظام يتوقع ارتداداً. والأهم أن جوهر التعلّم المعزّز يقرر الأصول التي يجب الاحتفاظ بها؛ الوَحدة السلوكية تقتصر على زيادة أو خفض التعرض حول ذلك الأساس.
ترك مزاج السوق يختار السلوك
لتحديد متى نكون حذرين أو جريئين، يوصّل المؤلفون محرك تنبؤ منفصل يُدعى TimesNet، وهو نموذج تعلّم عميق مصمّم لاكتشاف الأنماط المتكررة في متسلسلات زمنية. يفحص TimesNet بيانات السوق الأخيرة ويتنبأ بالعائد الكلّي لليوم التالي. إذا توقع ارتفاعاً قوياً، يُفعل الوكيل شديد الثقة؛ وإذا استشعر تدهوراً، يتولّى وكيل تجنّب الخسارة السيطرة؛ وعندما يكون التوقّع متواضعاً، يبقى الوكيل المحايد في القيادة. يتم تدريب هذا المُبدِّل للنُهج على بيانات ماضية بطريقة تقدّمية (walk-forward) لتجنّب أي نظرة إلى المستقبل، ويمكن استبداله بملاقط تنبؤية أخرى دون تعديل الجوهر السلوكي.

اختبار النظام الواعي بالسلوك
قيّم الفريق إطار عملهم المُسمّى تداول المحفظة الواعية بانحيازات السلوك (BBAPT) في ساحتين مختلفتين للغاية: سلة مكوّنة من 20 أصلاً في سوق العملات المشفّرة من 2018 إلى 2024، وقائمة متغيرة من أسهم مؤشر داو جونز الصناعي من 2008 إلى 2024. في سوق الكريبتو، حيث التقلبات شديدة شيوعاً، يبرع وضع تجنّب الخسارة في الأسواق المتذبذبة والمحدودة النطاق عبر تقليل التعرض واحتواء الانخفاضات الكبيرة، بينما يتفوّق وضع الثقة المفرطة خلال موجات الصعود القوية بتضخيم الفائزين. على كامل الفترة، يحقّق نظام BBAPT المجمّع — باستخدام TimesNet للاختيار بين الأوضاع المحايدة، المتجنّبة للخسارة، والمفرطة الثقة — أداءً معدل المخاطر أعلى من محافظ ماركوفيتز الكلاسيكية، واستراتيجيات الوزن المتساوي البسيطة، ووكلاء التعلّم المعزّز بدون التعديلات السلوكية.
نتائج ثابتة في أسواق الأسهم الناضجة
في اختبارات داو جونز الطويلة، التي تشمل أزمة 2008 المالية، وانهيار COVID-19، وصدمات التضخّم في 2022، تتكرر نفس الأنماط. جميع الاستراتيجيات المبنية على التعلّم المعزّز تتفوّق على المحافظ الثابتة من حيث العوائد ونسبة شارب، وهي مقياس شائع للعائد لكل وحدة مخاطر. ضمن تلك المجموعة، يوفر تكوين تجنّب الخسارة رحلة أكثر سلاسة مع أصغر خسارة قصوى، ويحقق تكوين الثقة المفرطة أعلى مكاسب خام على حساب تقلبات أكبر، ويقف إطار BBAPT الكامل على حدود الفاعلية، حيث يجمع بين عوائد قوية ومخاطرة معتدلة. كما يُعدّل المؤلفون لأعمال تغيّر عضوية المؤشر للوقاية من تحيّز البقاء، ويجدون أن الاستنتاجات الأساسية تبقى سليمة.
ما الذي يعنيه هذا للمستثمرين العاديين
بالنسبة لغير المتخصصين، الرسالة الأساسية أن التداول الخوارزمي الناجح لا يجب أن يتجاهل علم النفس البشري؛ بل يمكنه أن يستغله. من خلال بناء نسخ محكمة التحكم من الخوف والجرأة داخل متداول ذكي — وترك نموذج تنبؤي يقرر متى ينبغي أن يسود كل سلوك — يخلق إطار BBAPT محافظ تتكيّف مع فترات الازدهار والانهيار بطريقة أكثر بديهية. تشير الدراسة إلى مستقبل قد لا تكون فيه أنظمة التداول «الذكية» مجرد مستندة إلى البيانات فحسب، بل أيضاً واعية بالسلوك، ما يقدّم للمستثمرين أدوات أكثر متانة وأسهل فهماً من النماذج السوداء التي تفترض عقلانية تامة.
الاستشهاد: Charkhestani, A., Esfahanipour, A. Behaviorally informed deep reinforcement learning for portfolio optimization with loss aversion and overconfidence. Sci Rep 16, 6443 (2026). https://doi.org/10.1038/s41598-026-35902-x
الكلمات المفتاحية: التداول الخوارزمي, المالية السلوكية, التعلّم المعزّز, تحسين المحفظة, أسواق العملات المشفّرة