Clear Sky Science · ru

Антивмешивающиеся дифракционные глубокие нейронные сети для распознавания множества объектов

2026-02-03 · Назад к списку

Видеть сигнал в шумном мире

Современная жизнь полна камер и датчиков, которым нужно выделять важные объекты в сцене — пешехода на дороге, крошечную опухоль на снимке, подозрительный предмет в толпе — даже когда они окружены беспорядком. В этой работе предложен новый тип «полностью оптической» нейронной сети, которая выполняет большую часть распознавания с помощью самого света, а не электронных чипов. В результате получается система, способная распознавать выбранные объекты в загруженных, меняющихся сценах, рассматривая всё остальное как безвредный фоновой шум, что потенциально обеспечивает более быструю и значительно энергоэффективную визуальную обработку для будущих машин.

Почему важны компьютеры из света

Традиционные системы глубокого обучения работают на электронных процессорах, которые проливают ток через миллиарды крошечных переключателей. Они мощны, но становятся медленными, когда решения нужно принимать за микросекунды, и теряют много энергии в виде тепла. Свет предлагает привлекательную альтернативу: лучи могут нести огромные объемы информации параллельно, распространяться с предельной скоростью и не нагревать схемы так, как электрические токи. Оптические нейронные сети используют эти преимущества, формируя свет с помощью тщательно спроектированных поверхностей так, чтобы луч, проходя через них, фактически «вычислял» ответ на задачу распознавания.

От одного объекта к загруженным сценам

Большинство существующих оптических нейронных сетей ограничены простыми задачами, например определением одной цифры, напечатанной в центре чистого изображения. Они испытывают трудности, когда появляются несколько объектов, они перекрываются или движутся — как раз такие условия встречаются в реальных сценах. Предыдущие попытки справиться с множественными объектами часто требовали строгих ограничений по месту появления каждого объекта или опирались на дополнительную электронную обработку после оптического этапа, что снижало преимущества по скорости и энергопотреблению оптического подхода.

Обучение света игнорировать отвлекающие факторы

Авторы представляют «антивмешивающуюся дифракционную глубокую нейронную сеть», или AI D2NN, которая напрямую борется с загруженными сценами. Она состоит всего из двух ультратонких структурированных слоев — метаповерхностей — через которые проходит пучок терагерцового света. Эти слои проектируются в ходе компьютерного обучения так, чтобы свет от целевых объектов, здесь рукописных цифр от 0 до 5, направлялся в одну из шести небольших ярких точек на выходной плоскости, по одной точке на каждую цифру. В то же время свет от всего остального — других цифр, изображений одежды, букв и случайных их комбинаций — намеренно перемешивается в тусклую, почти однородную дымку, которая не вызывает срабатывания ни одной выходной точки.

Создание и тестирование физического оптического компьютера

Чтобы превратить обученную схему в аппаратный образец, команда изготовила кремниевые метаповерхности, состоящие из крошечных цилиндрических столбиков, которые задерживают проходящий свет на точно заданные величины. Размещённые в сетке 100 на 100, эти столбики функционируют как оптические нейроны, совместный эффект которых реализует изученную сеть. Исследователи протестировали систему терагерцовыми пучками, смоделированными так, чтобы отображать смеси целевых цифр и 40 различных типов мешающих форм, размещённых в случайных позициях и размерах, имитируя движущиеся, загруженные сцены. В компьютерных симуляциях оптическая сеть правильно распознавала выбранные цифры примерно в 87 процентах этих сложных случаев, а реальная экспериментальная установка добилась почти такой же точности, что демонстрирует работоспособность концепции за пределами компьютерной модели.

Что это означает для будущих машин

Проще говоря, эта работа показывает, что возможно создать бумаго‑тонкое оптическое устройство, которое «прорисовывает» через беспорядок и при этом замечает нужный объект, потребляя очень мало энергии и работая на скорости света. Поскольку дизайн опирается на общие свойства дифракции, та же идея может быть масштабирована на другие цвета или длины волн и сочетаться с другими оптическими приёмами для одновременной работы с большим числом классов объектов. С дальнейшим совершенствованием подобные антивмешивающиеся оптические сети могли бы помочь автономным автомобилям быстро идентифицировать ключевых участников дорожного движения, ассистировать врачам в реальном времени при пометке подозрительных особенностей на снимках или поддерживать лёгкие камеры безопасности, обнаруживающие угрозы без тяжёлой электронной обработки.

Цитирование: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7

Ключевые слова: оптические нейронные сети, распознавание множества объектов, метаповерхности, терагерцовая визуализация, полностью оптические вычисления