Clear Sky Science · he
טרנזיסטורים סינפטיים בהשראת המוח ללמידת חיזוק מתיזמת עם עקבת כשירות
מכונות חכמות בהשראת המוח
המכונות החכמות של היום יכולות להביס בני אדם במשחקים ולעזור להניע רכבים, אך החומרה שמריצה את האלגוריתמים הללו עדיין רחוקה מהאופן שבו המוח לומד. מאמר זה מציג סוג חדש של רכיב אלקטרוני זעיר שמעתיק כמה מהטריקים המרכזיים שבהם משתמשות סינפסות אמיתיות במוח כדי ללמוד מתגמולים וטעות. על ידי בניית טרנזיסטורים הדומים לסינפסות בתוך רשת פשוטה, החוקרים מראים שרכב רובוטי קטן יכול ללמוד לשמור על נתיבו ביעילות מבלי להסתמך על מחשבים גדולים וצרכניים בהספק.
מדוע למידה מבוססת תגמול חשובה
חלק גדול מהבינה המלאכותית המודרנית משנה חיבורים ברשת אך ורק על סמך נתוני קלט ופלט. לעומת זאת, בעלי חיים לומדים לא רק מדפוסים אלא גם מהצלחות וכישלונות המסומנים על ידי תגמולים כמו מזון או עונג. נוירוביולוגים ממדים זאת באמצעות "למידת חיזוק", שבה מולקולות מיוחדות במוח, כמו דופמין, מודיעות לסינפסות אם פעולה אחרונה הייתה טובה או רעה. רעיון קשור, שנקרא עקבת כשירות (eligibility trace), מאפשר לסינפסה "לזכור" באופן זמני פעילות אחרונה כך שתגמול מאוחר יותר עדיין יכול לחזק או להחליש את החיבור באופן מתאים. שיחזור כל התכונות הללו ישירות בחומרה יכול להפוך מכונות לומדות למהירות ויעילות אנרגטית באופן משמעותי.

טרנזיסטור יחיד הפועל כמו סינפסה
המחברים מפתחים טרנזיסטור סינפטי המבוסס על חומר מיוחד בשם α-In2Se3, שהוא גם מוליך למחצה וגם פרואלקטרי, כלומר הקיטוב החשמלי הפנימי שלו ניתן להפיכה וישמור על מצב זה. למכשיר יש שלושה טרמינלים: שניים מתפקדים כמו קצוות הטרום- והפוסט-נוירון של סינפסה, והטרמינל השלישי מתנהג ככניסת תגמול. כאשר מוחלים פולסים דמויי-נצה בין שני הטרמינלים הראשונים, ההתכווניות (conductance) של הערוץ משתנה, מדמה כיצד סינפסה מתחזקת או נחלשת בהתאם לתזמון הנצים. משום שקיטוב החומר מרפה לאט עם הזמן, ההתכווניות נוטה לחזור לאט, מה שמספק זיכרון מדורג מובנה הממלא את תפקיד עקבת הכשירות.
שילוב תגמול וזיכרון בפיזיקה של המכשיר
הטרנזיסטור הזה עושה יותר מאחסון ערך פשוט. הקיטוב במישור מגיב בעיקר לאותות שמייצגים את הלמידה מבוססת-הזמניות בין שני נוירונים, בעוד הקיטוב מחוץ למישור מגיב חזק יותר לפולסים המוחלים על הטרמינל השלישי, המשמש כאות תגמול. בתקופת ההרפיה אחרי פעילות הנצים מגיע פולס תגמול מושהה לשער ומגביר או מפחית את שינוי ההתכווניות שנותר. אם התגמול מגיע במהירות, עקבת הכשירות לא התמוססה הרבה ולכן עדכון המשקל גדול; אם התגמול מאוחר, ההשפעה קטנה יותר. באמצעות כוונון גודל וצורת הפולסים החשמליים יכולים החוקרים לכוון כמה זמן נמשכת עקבת הכשירות, בטווח הדומה למערכות ביולוגיות, וכל זאת ללא מעגלים נוספים או רכיבי זיכרון חיצוניים.

ממכשיר יחיד לרכב שלומד
כדי לבדוק את הערך הפרקטי של הטרנזיסטורים הסינפטיים, הקבוצה בנתה מערך קטן של רכיבים וחיברה אותם לרשת עצבית מתנקשת למשימת שמירה על נתיב. מבט פשוט וברזולוציה נמוכה של הכביש מומר לפיצוצי נצים הנכנסים ל-18 נוירוני קלט, שמתחברים דרך הסינפסות החדשות לשני נוירוני פלט השולטים על ההיגוי שמאלה וימינה. ככל שהרכב המדומה מטייל, הוא מקבל משוב על מידת שמירת המרכז בנתיב. משוב זה מומר לפולסי תגמול הנשלחים לטרמינלים השלישיים של הטרנזיסטורים הסינפטיים, שמעדכנים ישירות את ההתכווניות על השבב. המערך, גם בנוכחות שונות דגמית ורעש, לומד לשמור את הרכב בנתיבו ותואם באופן הדוק את ביצועי המודל התוכנתי האידיאלי.
מה משמעות הדבר למכשירים עתידיים
העבודה מראה שטרנזיסטור יחיד קומפקטי יכול באופן מלדני לבצע שלוש פונקציות חיוניות ללמידת חיזוק בהשראת המוח: התאמה מבוססת-זמניות של חוזק הסינפסה, אחסון זמני של פעילות אחרונה כעקבת כשירות, וחיזוק או דיכוי מונעי תגמול של אותה עקבה. מכיוון שכל זה מתרחש בתוך פיזיקת החומר של המכשיר עצמו, החומרה המתקבלת מבטיחה חיסכון משמעותי בשטח ובאנרגיה לעומת מעגלים קונבנציונליים המדמים את ההתנהגות הזו בתוכנה. טרנזיסטורים סינפטיים כאלה יכולים להוות את בסיסם של התקני קצה עתידיים — כמו רובוטים קטנים, חיישנים או לבישים — שלומדים מאינטראקציה עם סביבתם בזמן אמת תוך צריכת חשמל נמוכה מאוד.
ציטוט: Wang, Y., Xiong, W., Yan, J. et al. Brain-inspired synaptic transistors for in-situ spiking reinforcement learning with eligibility trace. Nat Commun 17, 3001 (2026). https://doi.org/10.1038/s41467-026-69898-9
מילות מפתח: חומרה נאורומורפית, למידת חיזוק, רשתות עצביות מתנקשות, טרנזיסטורים פרואלקטריים, נהיגה אוטונומית