Clear Sky Science · ru

Вторичного порядка мемристоры с внутренним кислородным градиентом для непрерывного обучения с подкреплением

2026-03-03 · Назад к списку

Почему важно научить аппаратное обеспечение учиться

Компьютеры становятся лучше в обучении на опыте, но подавляющее большинство современных систем искусственного интеллекта всё ещё полностью работает в виде программного обеспечения на энергоёмких чипах. Наш мозг, напротив, хранит и обрабатывает информацию в одном и том же месте, используя медленные, тонкие потоки ионов, которые естественно адаптируются со временем. В этой статье предлагается новый тип электронного компонента, имитирующего такие мягкие внутренние градиенты, что позволяет оборудованию регулировать скорость обучения по мере изменения задачи и окружения. Такие устройства в будущем могут привести к более эффективным, похожим на мозг машинам, которые продолжают учиться непрерывно без необходимости начинать заново.

Крошечное устройство, вдохновлённое живыми клетками

Работа вдохновлена тем, как живые клетки используют различия в концентрации ионов через свои мембраны как долговременные энергетические ландшафты для сигнализации и запоминания. Вместо попытки копировать каждую биологическую деталь исследователи сосредоточились на воспроизведении одной ключевой особенности: встроенного градиента, который меняется медленно со временем. Они создали слоёное электронное устройство, называемое мемристором второго порядка, состоящее из компактно уложенных тонких плёнок на прозрачном электроде. Вставив специальный молекулярный слой цинк-порфирина и затем аккуратно нанеся сверху слой оксида алюминия, они получили стабильный градиент концентрации кислорода внутри устройства. Этот внутренний градиент действует подобно разнице внутри и снаружи клеточной мембраны, сохраняя историю прошлой электрической активности.

Медленное управляемое изменение вместо резкого переключения

Многие существующие мемристоры переключаются резко между состояниями, что хорошо для цифровой памяти, но плохо для представления постепенных изменений во времени. В новом устройстве ионы кислорода дрейфуют и диффундируют медленно вдоль встроенного градиента, создавая плавно эволюционирующую электрическую проводимость, которая может сохраняться и расслабляться более ста секунд. При подаче коротких электрических импульсов разной силы в одном направлении команда могла либо продвигать ионы дальше против градиента, либо позволять им возвращаться назад, тонко настраивая проводимость вместо её включения или выключения. Такое поведение, известное как динамика второго порядка, позволило устройству формировать около 40 различных долговременных промежуточных уровней — «псевдонеобратимых» состояний, которые не закреплены навсегда, но остаются стабильными достаточно долго, чтобы быть полезными для обучения.

Как устройство меняет практическое обучение

Чтобы показать, почему это медленное поведение, управляемое градиентом, важно, авторы напрямую связали устройство с распространённым правилом обучения, используемым в обучении с подкреплением, где агент многократно исследует среду и обновляет степень доверия к каждому действию. В этих алгоритмах один параметр — скорость обучения — контролирует, как быстро прошлый опыт заменяется новой информацией. Вместо того чтобы задавать эту скорость вручную, они сопоставили её со временем-зависимыми изменениями проводимости их мемристора. Сразу после сильного электрического импульса проводимость устройства меняется быстро; позже она переходит в более медленные, меньшие корректировки. Перенос этого естественного замедления в правило обучения означает, что агент сначала смело исследует, а затем постепенно стабилизирует свою стратегию, подобно животному, которое сначала экспериментирует, а затем уточняет привычки.

Превосходство над обычными схемами обучения в меняющемся мире

Исследователи проверили этот график обучения, вдохновлённый аппаратурой, на моделируемых задачах навигации, где автономный транспорт должен найти хороший маршрут при покрытии связи. В статической среде скорость обучения, управляемая мемристором, сократила число итераций обучения, необходимых для достижения хорошего решения, почти на 70 процентов по сравнению с фиксированными или вручную настроенными расписаниями, а также уменьшила нестабильные колебания и плохие локальные решения. Затем они усложнили задачу, увеличив карты и изменяя условия в несколько этапов, имитируя мир, который со временем становится сложнее. И там поведение, выведенное из устройства, сократило общее число эпизодов обучения более чем на треть по сравнению со стандартными линейными схемами, плавно адаптируясь по мере масштабирования задачи.

Что это значит для будущих машин, похожих на мозг

Для неспециалиста главный вывод в том, что команда превратила микроскопический приём с материалом — фиксирование мягкого кислородного градиента — в мощный способ управлять тем, как машины учатся со временем. Вместо опоры на тщательно настроенные программные параметры, поведение обучения естественным образом возникает из собственной медленной внутренней физики устройства. Это указывает на будущее, в котором нейроморфное оборудование не просто хранит числа, но воплощает правила обучения в своей материальной структуре, создавая искусственные системы, которые могут непрерывно адаптироваться к новым ситуациям с меньшими затратами энергии и меньшей потребностью в ручной настройке.

Цитирование: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0

Ключевые слова: мемристор, нейроморфное оборудование, обучение с подкреплением, градиент ионов кислорода, непрерывное обучение