Clear Sky Science · ru

Ультрабыстрое визуальное восприятие, превосходящее человеческие возможности, обеспеченное анализом движения с помощью синаптических транзисторов

· Назад к списку

Почему важно более быстрое зрение для роботов

Когда система автопилота или летающий дрон реагируют даже на долю секунды позже, последствия могут быть серьёзными. Лучшие на сегодняшний день алгоритмы компьютерного зрения могут соперничать с людьми или превосходить их в стандартных тестах, но им всё ещё требуется слишком много времени на обработку каждого видеокадра в реальном времени. В этой работе представлен новый вид аппаратного зрения, вдохновлённый мозгом, который позволяет машинам обнаруживать движение значительно быстрее человека, не жертвуя точностью.

Figure 1
Figure 1.

Как обычно учат машины распознавать движение

Традиционный анализ движения опирается на метод, называемый оптическим потоком, который оценивает, как каждая точка изображения перемещается из кадра в кадр. Он работает хорошо, но требует больших вычислительных ресурсов: для полноразмерного изображения высокой чёткости мощной видеокарте может потребоваться более полусекунды на выполнение. В ситуациях с высокой скоростью, например при движении по шоссе, такая задержка может означать десятки метров, пройденных прежде, чем система распознает угрозу. В отличие от человеческой зрительной системы, которая быстро фокусируется на наиболее релевантных частях сцены, стандартные алгоритмы добросовестно обрабатывают каждый пиксель, включая статичные области фона, которые несут мало полезной информации.

Заимствование приёма у ранних стадий зрения мозга

Биология решает эту задачу с помощью ранних фильтрующих слоёв в глазу и таламусе, которые подчёркивают области, где происходят изменения, и ослабляют всё остальное. Авторы имитируют эту идею в кремнии, создав нейроморфный модуль «временного внимания». Обычная камера по‑прежнему снимает изображение, но изменения яркости также поступают в компактную сетку синаптических транзисторов — электронных устройств, которые ведут себя отчасти как настраиваемые соединения в мозге. Каждое устройство локально аккумулирует, насколько изменилось освещение в его назначенном участке за короткое временное окно. Участки сетки с сильными изменениями выделяются как области интереса, тогда как более спокойные зоны стихают в фон.

Figure 2
Figure 2.

Умные транзисторы, которые запоминают движение

В основе системы лежит специально спроектированный синаптический транзистор с плавающим затвором, выполненный из многослойных атомарно тонких материалов. Короткие электрические импульсы позволяют настроить проводимость устройства и затем удерживать её в течение часов, фактически сохраняя память о недавней визуальной активности. Транзисторы реагируют примерно за 100 микросекунд — достаточно быстро для высокоскоростного видео — и выдерживают тысячи циклов обновления без деградации. Команда масштабировала одно устройство до массива 4×4 и показала, как изменения яркости камеры преобразуются в напряжённые импульсы, которые выборочно переводят некоторые элементы в состояния высокой проводимости — «движение», в то время как слабые вспышки и шум подавляются.

Фокусировка тяжёлых вычислений только там, где это важно

Выход массива преобразуется в грубую «тепловую карту» движения, отмечающую компактные области интереса. Вместо того чтобы запускать дорогостоящий код оптического потока на всём изображении, система анализирует только эти выделенные области с небольшим запасом вокруг них. Авторы демонстрируют, что такой подход напрямую интегрируется с несколькими популярными методами оценки оптического потока — от классических алгоритмов, таких как Farneback, до современных моделей глубокого обучения, таких как RAFT и GMFlow. В тестах с автомобилями, дронами, роботизированными манипуляторами и быстрыми видами спорта, например настольным теннисом, нейроморфный фронтенд систематически сокращает время, затрачиваемое на оценку движения и последующие задачи — такие как прогнозирование траектории объекта, сегментация движущихся объектов от фона или отслеживание цели — примерно в четыре раза.

Обгоняя человеческую реакцию без потери точности

Критически важно, что это ускорение не достигается за счёт надёжности. Предоставляя дополнительную информацию о том, где скорее всего происходит движение, временные подсказки зачастую повышают точность, особенно для отслеживания объектов и сегментации в загромождённых сценах. В сценариях с автомобилями и мелкими дронами показатели задач более чем удвоились по сравнению с традиционными конвейерами, а общее время обработки сократилось до десятков миллисекунд — сопоставимо с типичным временем реакции человека около 150 миллисекунд или лучше. Авторы утверждают, что этот нейроморфный модуль анализа движения может сочетаться со многими существующими алгоритмами зрения и даже с детекторами объектов, выходящими за рамки оптического потока, чтобы дать роботам, транспортным средствам и интерактивным машинам гораздо более быстрый и целенаправленный способ понимания динамической среды.

Цитирование: Wang, S., Zhao, J., Pu, T. et al. Ultrafast visual perception beyond human capabilities enabled by motion analysis using synaptic transistors. Nat Commun 17, 1215 (2026). https://doi.org/10.1038/s41467-026-68659-y

Ключевые слова: нейроморфное зрение, оптический поток, синаптические транзисторы, восприятие роботов, автономное вождение