Clear Sky Science · ja
多物体認識のための干渉抑制回折型深層ニューラルネットワーク
雑音の多い世界で信号を見分ける
現代の生活は、画面上の歩行者、スキャン中の微小な腫瘍、混雑する群衆中の不審物など、シーン内の重要な対象を選び出さなければならないカメラやセンサーであふれています—それらはしばしば雑多な背景に囲まれています。本論文は、電子チップの代わりに光そのものを用いてこうした認識の多くを行う新しい種類の「全光」ニューラルネットワークを提示します。その結果、煩雑で変化するシーンの中から選択した対象を認識し、その他を無害な背景雑音として扱うことのできるシステムが実現され、将来の機械にとってより高速かつはるかにエネルギー効率の高い視覚を可能にする可能性があります。

光でできたコンピュータが重要な理由
従来のディープラーニングシステムは、電流を何十億もの微小なスイッチに通す電子プロセッサ上で動作します。それらは強力ですが、マイクロ秒単位で意思決定を行う必要がある場合には遅く、また多くのエネルギーを熱として浪費します。光は魅力的な代替手段を提供します:光線は膨大な量の情報を並列に運べ、究極の速度限界で伝播し、電流のように回路を発熱させません。光学ニューラルネットワークは、入射する光を設計された面で整形することで、光が通過する過程自体が認識問題の「計算」を実行するというこれらの利点を活用します。
単一対象から混雑したシーンへ
既存の多くの光学ニューラルネットワークは、きれいな画像の中央に印刷された単一の数字を判定するなど、単純な作業に限定されています。複数の物体が同時に現れたり重なったり移動したりすると苦戦します—まさに実世界のシーンで見られる条件です。複数物体に対応しようとした過去の試みは、各物体の出現位置に厳格な制約を設けたり、光学段階後に追加の電子処理を必要としたりすることが多く、光学アプローチの速度と省電力という利点を損なっていました。
光に注意散漫を無視させる訓練
著者らは、混雑したシーンに直接対処する「干渉抑制回折型深層ニューラルネットワーク」(AI D2NN)を導入します。これは、テラヘルツ光のビームが通過する極薄のパターン化された2層のメタサーフェスだけで構成されています。これらの層はコンピュータによる訓練で設計され、ここでは手書きの数字0〜5からの光を出力面の6つの小さな明るいスポットのいずれかへと導くようになっています(数字ごとに1つのスポット)。同時に、他の数字や衣類画像、文字、ランダムな組み合わせなどからの光は意図的にかき乱され、ほとんど均一で暗いかすみへと変換され、どの出力スポットも反応しないようにされます。

物理的な光コンピュータの構築と試験
訓練された設計をハードウェア化するために、チームは通過する光を正確な遅延で遅らせる微小な円柱状柱で構成されたシリコン製メタサーフェスを作製しました。100×100のグリッドに配置されたこれらの柱は、学習されたネットワークを実現する光学ニューロンのように機能します。研究者たちは、ターゲット数字の混合と40種類の異なる干渉形状をパターン化したテラヘルツビームを用い、移動し混雑したシーンを模すためにランダムな位置とサイズで配置してシステムを試験しました。コンピュータシミュレーションでは、光学ネットワークはこうした困難なケースで約87%の確率で選択した数字を正しく認識し、実験的な実装でもほぼ同等の精度を達成し、概念がコンピュータモデルの外でも機能することを示しました。
未来の機械にとっての意義
平たく言えば、この研究は、紙のように薄い光学デバイスが雑多な背景を透かして自分が注目する対象を見つけ出せることを示しています。消費エネルギーは非常に小さく、動作は光速です。設計が回折の一般的性質に依拠しているため、同じ考え方は異なる色や波長の光へスケールさせることができ、他の光学的手法と組み合わせて同時により多くの物体クラスを扱えるようになる可能性があります。さらなる改良が進めば、同様の干渉抑制光学ネットワークは自動運転車が主要な道路利用者を迅速に特定するのを助けたり、医師がスキャン中の疑わしい特徴をリアルタイムでマークするのを支援したり、重い電子処理を必要としない軽量な監視カメラの脅威検知を支えたりすることが期待されます。
引用: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7
キーワード: 光学ニューラルネットワーク, 多物体認識, メタサーフェス, テラヘルツイメージング, 全光コンピューティング