Clear Sky Science · pl

Dyfrakcyjne głębokie sieci neuronowe odporne na zakłócenia do rozpoznawania wielu obiektów

· Powrót do spisu

Dostrzec sygnał w hałaśliwym świecie

Współczesne życie obfituje w kamery i czujniki, które muszą wyławiać istotne elementy sceny – pieszego na jezdni, maleńki guz na skanie, podejrzany przedmiot w tłumie – nawet gdy są otoczone przez bałagan. W tym artykule przedstawiono nowy rodzaj „całkowicie optycznej” sieci neuronowej, która wykonuje dużą część tego rozpoznawania samym światłem zamiast układów elektronicznych. Efekt to system potrafiący rozpoznawać wybrane obiekty w zatłoczonych, zmieniających się scenach, traktując wszystko inne jako nieszkodliwe tło — co może umożliwić szybsze i znacznie bardziej energooszczędne widzenie dla przyszłych maszyn.

Figure 1
Figure 1.

Dlaczego komputery zbudowane ze światła mają znaczenie

Konwencjonalne systemy głębokiego uczenia działają na procesorach elektronicznych, które przesyłają prądy przez miliardy maleńkich przełączników. Są potężne, ale też wolne, gdy decyzje trzeba podejmować w mikrosekundach, i marnują dużo energii w postaci ciepła. Światło oferuje atrakcyjną alternatywę: wiązki mogą przenosić ogromne ilości informacji równolegle, poruszają się z maksymalną możliwą prędkością i nie nagrzewają obwodów tak jak prądy elektryczne. Optyczne sieci neuronowe wykorzystują te zalety przez kształtowanie światła za pomocą starannie zaprojektowanych powierzchni, tak że wiązka przechodząca przez nie w istocie „oblicza” odpowiedź na zadanie rozpoznawcze.

Od pojedynczego obiektu do zatłoczonych scen

Większość istniejących optycznych sieci neuronowych jest ograniczona do prostych zadań, takich jak rozpoznanie, która pojedyncza cyfra znajduje się na środku czystego obrazu. Mają problemy, gdy pojawia się kilka obiektów jednocześnie, nakładają się lub poruszają — dokładnie w warunkach spotykanych w rzeczywistych scenach. Poprzednie próby obsługi wielu obiektów często wymagały ścisłych reguł dotyczących pozycji każdego obiektu lub polegały na dodatkowym przetwarzaniu elektronicznym po etapie optycznym, co podważało zyski w prędkości i efektywności energetycznej podejścia optycznego.

Nauczyć światło ignorować rozproszenia

Autorzy wprowadzają „dyfrakcyjną głęboką sieć neuronową odporną na zakłócenia”, zwaną AI D2NN, która bezpośrednio radzi sobie z zatłoczonymi scenami. Składa się z zaledwie dwóch ultracienkich warstw o wzorach — metapowierzchni — przez które przechodzi wiązka światła terahercowego. Warstwy te są projektowane przez komputerowe uczenie tak, aby światło pochodzące z docelowych obiektów, tu odręcznych cyfr 0 do 5, było kierowane do jednego z sześciu małych jasnych punktów na płaszczyźnie wyjściowej, po jednym punkcie na cyfrę. Jednocześnie światło pochodzące ze wszystkiego innego — inne cyfry, obrazy odzieży, litery i losowe kombinacje — jest celowo rozpraszane do słabego, niemal jednolitego zmatowienia, które nie aktywuje żadnego punktu wyjściowego.

Figure 2
Figure 2.

Budowa i testy fizycznego komputera świetlnego

Aby przekształcić wytrenowany projekt w sprzęt, zespół wykonał metapowierzchnie krzemowe złożone z maleńkich cylindrycznych filarów, które opóźniają przechodzące przez nie światło o precyzyjne wartości. Ułożone w siatkę 100 na 100, te filary działają jak optyczne neurony, których połączony efekt realizuje wyuczoną sieć. Badacze testowali system wiązkami terahercowymi wzorcowanymi tak, by pokazywać mieszanki docelowych cyfr oraz 40 różnych rodzajów kształtów zakłócających, umieszczanych losowo w pozycjach i rozmiarach naśladujących poruszające się, zaśmiecone sceny. W symulacjach komputerowych sieć optyczna prawidłowo rozpoznawała wybrane cyfry w około 87 procentach tych trudnych przypadków, a rzeczywisty układ eksperymentalny osiągnął niemal taką samą dokładność, wykazując, że koncepcja działa poza modelem komputerowym.

Co to oznacza dla przyszłych maszyn

Mówiąc prosto, praca ta pokazuje, że można zbudować papierowo cienkie urządzenie optyczne, które przedziera się przez bałagan i nadal wykrywa obiekt, na którym mu zależy, zużywając bardzo mało energii i działając z prędkością światła. Ponieważ projekt opiera się na ogólnych właściwościach dyfrakcji, ta sama idea może być skalowana do różnych barw czy długości fal światła i łączona z innymi sztuczkami optycznymi, by obsługiwać wiele klas obiektów jednocześnie. Przy dalszym dopracowaniu podobne optyczne sieci odporne na zakłócenia mogłyby pomagać samochodom autonomicznym szybko identyfikować kluczowych uczestników ruchu, wspierać lekarzy w natychmiastowym wykrywaniu podejrzanych cech na skanach lub zasilać lekkie kamery bezpieczeństwa wykrywające zagrożenia bez konieczności ciężkiego przetwarzania elektronicznego.

Cytowanie: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7

Słowa kluczowe: optyczne sieci neuronowe, rozpoznawanie wielu obiektów, metapowierzchnie, obrazowanie w zakresie teraherców, całkowicie optyczne obliczenia