Clear Sky Science · ar

ترانزستورات تشابكية مستوحاة من الدماغ للتعلّم التعزيزي النابض في الموقع مع أثر الأهلية

2026-02-21 · العودة إلى الفهرس

آلات أذكى مستوحاة من الدماغ

يمكن للآلات الذكية اليوم التفوق على البشر في الألعاب والمساعدة على قيادة السيارات، لكن الأجهزة التي تُشغّل هذه الخوارزميات لا تزال بعيدة عن طريقة تعلم الدماغ. تقدم هذه الورقة نوعًا جديدًا من الأجهزة الإلكترونية الصغيرة التي تُحاكي عدة حيل أساسية تستخدمها المشابك الحقيقية في الدماغ للتعلّم من المكافآت والأخطاء. من خلال بناء هذه الترانزستورات الشبيهة بالمشابك داخل شبكة بسيطة، يبيّن الباحثون أن سيارة روبوت صغيرة يمكنها تعلم البقاء داخل المسار بكفاءة دون الاعتماد على حواسيب ضخمة تستهلك طاقة كبيرة.

لماذا يهم التعلم القائم على المكافأة

يعتمد الكثير من الذكاء الاصطناعي الحديث على تعديل الاتصالات في الشبكة بالاستناد فقط إلى بيانات الدخل والخرج. بالمقابل، لا يتعلم الحيوان من الأنماط وحدها، بل يتعلم أيضًا من النجاح والفشل المشار إليهما بمكافآت مثل الغذاء أو المتعة. يُنمذج علماء الأعصاب هذا بـ«التعلّم التعزيزي»، حيث تُشير مواد كيميائية خاصة في الدماغ، مثل الدوبامين، للمشابك عما إذا كان فعل معين جيدًا أم سيئًا. فكرة مترابطة تُعرف بأثر الأهلية تسمح للمشبك بأن «يتذكر» نشاطًا حديثًا مؤقتًا حتى تظل مكافأة لاحقة قادرة على تقوية أو إضعاف تلك الوصلة بشكل مناسب. إن إعادة إنتاج كل هذه الخصائص مباشرةً في الأجهزة قد يجعل آلات التعلّم أسرع وأكثر كفاءة في استهلاك الطاقة بكثير.

ترانزستور واحد يتصرف كمشبك

طور المؤلفون ترانزستورًا تشابكيًا قائمًا على مادة خاصة تُدعى α-In2Se3، وهي مادة نصف ناقلة وفيروإلكتريك في آن واحد، مما يعني أن استقطابها الكهربائي الداخلي يمكن قلبه ويبقى على حاله. للجهاز ثلاثة أطراف: يعمل اثنان منهما كمحاكي لنهاية الخلايا ما قبل وما بعد المشبك، بينما يتصرف الطرف الثالث كمدخل للمكافأة. عندما تُطبّق نبضات جهد شبيهة بالنبضات بين الطرفين الأولين، يتغير توصيل القناة، محاكيًا كيف تصبح المشبك أقوى أو أضعف اعتمادًا على توقيت النبضات. وبما أن استقطاب المادة يرتاح ببطء مع الزمن، يعود التوصيل طبيعيًا إلى حالته السابقة تدريجيًا، موفرًا ذاكرة متلاشية مدمجة تعمل كبديل لأثر الأهلية.

بناء المكافأة والذاكرة داخل الفيزياء

يفعل هذا الترانزستور أكثر من مجرد تخزين قيمة. يستجيب الاستقطاب داخل الطائرة أساسًا للإشارات التي تمثل التعلم المعتمد على التوقيت بين خليتين عصبيتين، بينما يستجيب الاستقطاب الخارج عن مستوى الطيّة بشدّة أكبر للنبضات المطبقة على الطرف الثالث الذي يعمل كإشارة مكافأة. خلال فترة الاسترخاء بعد نشاط النبضات، تصل نبضة مكافأة مؤخرة إلى البوابة فتزيد أو تقلل التغير المتبقي في التوصيل. إذا جاءت المكافأة بسرعة، فإن أثر الأهلية لم يتلاشى كثيرًا، لذا يكون تحديث الوزن كبيرًا؛ وإذا كانت المكافأة متأخرة، فالتأثير أصغر. من خلال ضبط حجم وشكل النبضات الكهربائية، يمكن للباحثين تعديل مدة استمرار أثر الأهلية، لتغطي نطاقًا مشابهًا للأنظمة البيولوجية، وكل ذلك دون دوائر أو عناصر ذاكرة إضافية.

من جهاز واحد إلى سيارة متعلمة

لاختبار القيمة العملية لهذه التر انزستورات التشابكية، بنى الفريق مصفوفة صغيرة من الأجهزة وربطها في شبكة عصبية نابضة لمهمة الحفاظ على المسار. تُحوّل رؤية بسيطة منخفضة الدقة للطريق الأمامي إلى دفعات من النبضات تدخل 18 خلية عصبية دخلية، والتي بدورها تتصل عبر المشابك الجديدة بخليتين عصبيتين خرج تتحكمان في التوجيه يسارًا ويمينًا. بينما تتجول السيارة المحاكاة، تتلقّى ملاحظات اعتمادًا على مدى بقائها في مركز المسار. تُحوّل هذه الملاحظات إلى نبضات مكافأة تصل إلى الأطراف الثالثة للترانزستورات التشابكية، محدثة التوصيل مباشرة على الشريحة. تتعلم المصفوفة، حتى مع تباينات الأجهزة والضوضاء، الحفاظ على السيارة داخل المسار، مطابقة أداء نموذج برمجي مثالي عن كثب.

ما الذي يعنيه هذا للأجهزة المستقبلية

تُظهر الدراسة أن ترانزستورًا واحدًا ومضغوطًا يمكنه بطبيعته تنفيذ ثلاث وظائف أساسية لتعلّم تعزيزي شبيه بالدماغ: تعديل قوة المشبك اعتمادًا على التوقيت، التخزين المؤقت للنشاط الحديث كأثر أهلية، والتعزيز أو القمع المدفوع بالمكافأة لذلك الأثر. وبما أن كل هذا يحدث داخل فيزياء مادة الجهاز نفسها، فإن الأجهزة الناتجة تعد بتوفير كبير في المساحة والطاقة مقارنةً بالدوائر التقليدية التي تُحاكي نفس السلوك في البرمجيات. قد تشكل مثل هذه التر انزستورات التشابكية أساس أجهزة الحافة المستقبلية—مثل روبوتات صغيرة أو حساسات أو ملابس إلكترونية—التي تتعلّم من التفاعل مع بيئتها في الزمن الحقيقي أثناء استهلاك طاقة ضئيل للغاية.

الاستشهاد: Wang, Y., Xiong, W., Yan, J. et al. Brain-inspired synaptic transistors for in-situ spiking reinforcement learning with eligibility trace. Nat Commun 17, 3001 (2026). https://doi.org/10.1038/s41467-026-69898-9

الكلمات المفتاحية: الأجهزة النيورومورفية, التعلّم التعزيزي, الشبكات العصبية النابضة, الترانزستورات الفيروإلكتрик, القيادة الذاتية