Clear Sky Science · de

Interferenzresistente diffraktive tiefe neuronale Netze zur Mehrfachobjekterkennung

2026-02-03 · Zurück zur Übersicht

Das Signal in einer lauten Welt sehen

Das moderne Leben ist voller Kameras und Sensoren, die in einer Szene die wichtigen Dinge herausfiltern müssen – einen Fußgänger auf der Straße, einen winzigen Tumor in einer Aufnahme, einen verdächtigen Gegenstand in einer Menschenmenge – selbst wenn sie von Unordnung umgeben sind. Diese Arbeit stellt eine neue Art von „volloptischem“ neuronalen Netz vor, das viele dieser Erkennungsaufgaben mit Licht selbst statt mit elektronischen Chips erledigt. Das Ergebnis ist ein System, das in belebten, sich verändernden Szenen ausgewählte Objekte erkennt und alles andere als harmloses Hintergrundrauschen behandelt, wodurch potenziell schnellere und deutlich energieeffizientere Vision für zukünftige Maschinen möglich wird.

Warum lichtbasierte Computer wichtig sind

Konventionelle Deep‑Learning‑Systeme laufen auf elektronischen Prozessoren, die Ströme durch Milliarden winziger Schalter leiten. Sie sind leistungsfähig, aber auch langsam, wenn Entscheidungen in Mikrosekunden getroffen werden müssen, und sie verschwenden viel Energie in Form von Wärme. Licht bietet eine attraktive Alternative: Strahlen können enorme Informationsmengen parallel tragen, sich mit der letztmöglichen Geschwindigkeit ausbreiten und erwärmen Schaltkreise nicht auf die Weise, wie elektrische Ströme es tun. Optische neuronale Netze nutzen diese Vorteile, indem sie Licht mit sorgfältig gestalteten Oberflächen formen, sodass ein Strahl, der durch sie hindurchgeht, effektiv die Antwort auf ein Erkennungsproblem „berechnet“.

Vom Einzelobjekt zur überfüllten Szene

Die meisten vorhandenen optischen neuronalen Netze sind auf einfache Aufgaben beschränkt, etwa darauf zu entscheiden, welche einzelne Ziffer in der Mitte eines sauberen Bildes gedruckt ist. Sie haben Schwierigkeiten, wenn mehrere Objekte zusammen erscheinen, sich überlagern oder sich bewegen – genau die Bedingungen, die in realen Szenen vorkommen. Frühere Versuche, mehrere Objekte zu verarbeiten, setzten oft strenge Regeln darüber voraus, wo sich jedes Objekt befinden darf, oder beruhten auf zusätzlicher elektronischer Verarbeitung nach der lichtbasierten Stufe, wodurch die Geschwindigkeits‑ und Energievorteile des optischen Ansatzes untergraben wurden.

Dem Licht beibringen, Ablenkungen zu ignorieren

Die Autorinnen und Autoren führen ein „interferenzresistentes diffraktives tiefes neuronales Netz“, kurz AI D2NN, ein, das sich direkt mit überfüllten Szenen auseinandersetzt. Es besteht aus nur zwei ultradünnen strukturierten Schichten – Metaflächen –, durch die ein Terahertz‑Lichtstrahl hindurchtritt. Diese Schichten werden per Computertraining so gestaltet, dass Licht von Zielobjekten, hier die handschriftlichen Ziffern 0 bis 5, in einen von sechs kleinen hellen Punkten in der Ausgabeebene gelenkt wird, ein Punkt pro Ziffer. Gleichzeitig wird Licht von allem anderen – anderen Ziffern, Kleidungsbildern, Buchstaben und zufälligen Kombinationen davon – absichtlich in einen schwachen, nahezu gleichmäßigen Dunst verstreut, der keinen Ausgabepunkt auslöst.

Aufbau und Test eines physischen Lichtrechners

Um das trainierte Design in Hardware zu überführen, fertigte das Team Silizium‑Metaflächen aus winzigen zylindrischen Säulen, die das durchtretende Licht um genau bemessene Phasen verzögern. In einem 100 × 100‑Gitter angeordnet wirken diese Säulen wie optische Neuronen, deren kombinierte Wirkung das gelernte Netzwerk realisiert. Die Forschenden testeten das System mit Terahertz‑Strahlen, die so gemustert waren, dass Mischungen aus Zielziffern und 40 verschiedenen Störformen gezeigt wurden, zufällig in Position und Größe platziert, um bewegte, unordentliche Szenen zu simulieren. In Computersimulationen erkannte das optische Netzwerk die ausgewählten Ziffern in etwa 87 Prozent dieser anspruchsvollen Fälle korrekt, und ein reales experimentelles Aufbauten erreichte nahezu dieselbe Genauigkeit, was zeigt, dass das Konzept auch außerhalb eines Computermodells funktioniert.

Was das für zukünftige Maschinen bedeutet

Einfach gesagt zeigt diese Arbeit, dass es möglich ist, ein papierdünnes optisches Gerät zu bauen, das durch Unordnung hindurchsehen und trotzdem das gesuchte Objekt erkennen kann – bei sehr geringem Energieverbrauch und mit der Geschwindigkeit des Lichts. Da das Design auf allgemeinen Beugungseigenschaften beruht, ließe sich dieselbe Idee auf andere Farben oder Wellenlängen des Lichts skalieren und mit weiteren optischen Verfahren kombinieren, um viele weitere Objektklassen gleichzeitig zu verarbeiten. Mit weiterer Verfeinerung könnten ähnliche interferenzresistente optische Netzwerke autonomen Fahrzeugen helfen, wichtige Verkehrsteilnehmer schnell zu identifizieren, Ärztinnen und Ärzten dabei assistieren, verdächtige Merkmale in Aufnahmen in Echtzeit zu markieren, oder leichte Überwachungskameras unterstützen, die Bedrohungen ohne aufwändige elektronische Verarbeitung erkennen.

Zitation: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7

Schlüsselwörter: optische neuronale Netze, Mehrfachobjekterkennung, Metaflächen, Terahertz-Bildgebung, volloptisches Rechnen