Clear Sky Science · ru

Обучение без обратной передачи ошибок в закрытой форме с помощью прямой проекции

· Назад к списку

Обучение машин без обратных сообщений

Современный искусственный интеллект в основном обучается с помощью метода, называемого обратным распространением ошибки, при котором сигналы ошибки передаются назад по сети для настройки её внутренних связей. Однако этот процесс отличается от работы реального мозга и может быть медленным и ресурсоёмким. В статье представлено новое средство обучения нейронных сетей — Прямая проекция, которое полностью исключает обратный шаг, но при этом демонстрирует высокую эффективность, особенно в сложных биомедицинских задачах с ограниченным объёмом данных.

Новый способ направлять обучение

Традиционные нейронные сети обучаются, сравнивая свои предсказания с правильными ответами и посылая сигналы ошибки назад через каждый слой, чтобы уточнить связи. Прямая проекция идёт иным путём. Вместо опоры на эти обратные сообщения об ошибке метод использует только информацию, доступную при движении сигналов вперёд: активность текущего слоя и целевую метку. На каждом слое метод сочетает вход в этот слой и требуемую выходную метку с помощью фиксированных случайных проекций, пропущенных через простую нелинейность. Это создаёт «целевой» внутренний сигнал для слоя — паттерн подобный мембранным потенциалам, к которому слой должен стремиться.

После формирования этих целей веса связей каждого слоя решаются за один шаг с использованием регрессии в закрытой форме, стандартной статистической формулы вместо итеративного градиентного спуска. Это означает, что сеть можно обучить за один проход по набору данных, не возвращаясь многократно к одним и тем же примерам и не сохраняя большое количество промежуточных активаций. Поскольку никакая информация не должна передаваться назад, метод соответствует однонаправленной коммуникации, наблюдаемой у биологических нейронов, и может быть проще для реализации на специализированном оборудовании с однонаправленными соединениями.

Figure 1
Figure 1.

Видеть смысл во внутренней активности

Поразительное преимущество Прямой проекции в том, что внутренние сигналы в скрытых слоях становятся прямо интерпретируемыми. Поскольку каждый слой явно обучается кодировать и вход, и метку в своих мембраноподобных потенциалах, эти внутренние значения можно рассматривать как локальные предсказания класса. Авторы показывают, как приблизительно «декодировать» эти сигналы обратно в пространство меток, превращая паттерны активности в по-слойные объяснения того, во что сеть верит на каждом этапе. В экспериментах такие объяснения становятся более точными в глубоких слоях, отражая прогрессивное обучение — ранние слои улавливают общие закономерности, в то время как более поздние фокусируются на деталях, критичных для решения.

Эта интерпретируемость особенно ценна в медицине, где понимание причин решения модели может быть столь же важно, как и само решение. На данных электрокардиограммы авторы показывают, что Прямая проекция выделяет клинически известные признаки инфаркта — например изменения в конкретных сегментах формы сигнала — в нужные моменты времени. На снимках глаза, используемых для обнаружения аномального роста сосудов, метод естественно фокусируется на скоплениях жидкости, ярких отложениях и рубцовых областях, на которые обращают внимание специалисты, даже при обучении всего на 100 примерах на класс.

Figure 2
Figure 2.

Быстрое обучение, сильные результаты

Команда сравнила Прямую проекцию с несколькими альтернативами, которые также стремятся избегать полного обратного распространения, а также с классическим обратным распространением. В задачах с изображениями и последовательностями, таких как Fashion-MNIST, распознавание промоторов ДНК, обнаружение инфаркта по электрокардиограмме и распознавание объектов, новый метод сравнялся или превзошёл производительность других локальных правил обучения. В стандартных условиях обратное распространение всё ещё сохраняло общее преимущество, но точность Прямой проекции оказалась удивительно близка, несмотря на использование всего одного прохода обучения.

Преимущества стали очевиднее в сценариях «few-shot», где доступно лишь несколько размеченных примеров, как часто бывает в клинической практике. Здесь Прямая проекция нередко обобщала лучше как по сравнению с обратным распространением, так и с конкурирующими локальными методами на рентгеновских снимках грудной клетки, изображениях сетчатки и небольших подмножествах изображений. Обратное распространение склонялось к переобучению на малых наборах данных или не смогло выучить достаточно информативные признаки, тогда как Прямая проекция давала более стабильные, повторно используемые внутренние представления. С вычислительной точки зрения обучение крупного слоя требовало на порядки меньше операций умножения и аккумуляции, чем многократные эпохи обратного распространения, что приводило к значительному ускорению и снижению энергозатрат.

Что это значит для будущего ИИ и вычислений, вдохновлённых мозгом

Проще говоря, эта работа показывает, что нейронные сети не обязаны полагаться на громоздкие, биологически неправдоподобные петли обратной связи, чтобы выработать полезные и понятные внутренние представления. Благодаря хитрому смешиванию входов и меток в одном прямом проходе и решению весов в закрытой форме, Прямая проекция предлагает способ быстро обучать модели, объяснять их внутреннюю работу и обрабатывать маленькие, шумные биомедицинские наборы данных. Хотя обратное распространение остаётся золотым стандартом для многих крупных задач, этот подход без обратной связи указывает путь к более мозгоподобным и аппаратно-дружелюбным стратегиям обучения, которые могут лечь в основу следующего поколения эффективных, объяснимых систем ИИ.

Цитирование: O’Shea, R., Rajendran, B. Closed-form feedback-free learning with forward projection. Nat Commun 17, 2414 (2026). https://doi.org/10.1038/s41467-026-69161-1

Ключевые слова: обучение без обратной обратной связи, нейронные сети, обучение с малым числом примеров, биомедицинский ИИ, объяснимое глубокое обучение