Clear Sky Science · pl

Obliczenia in-situ danych z architekturą Jeden-Piksel-Wiele-Memrystorów dla neuromorficznego widzenia sekwencyjnego

· Powrót do spisu

Dlaczego szybsze widzenie ma znaczenie

Za każdym razem, gdy kamera w telefonie, robocie czy samochodzie autonomicznym rejestruje otoczenie, najpierw musi uchwycić obrazy, a potem przesłać je do oddzielnego układu do analizy. To ciągłe przesyłanie marnuje czas i energię, szczególnie przy strumieniach wideo. Badanie opisane w tym artykule bada nowy rodzaj elektronicznego „oka”, które potrafi zarówno przechowywać, jak i przetwarzać informacje wizualne niemal tam, gdzie światło pada po raz pierwszy, czerpiąc inspirację z tego, jak mózg ludzki radzi sobie z ruchomymi scenami.

Jak nasze oczy i mózg przetwarzają ruch

U ludzi oko zamienia światło na drobne impulsy elektryczne, które biegną nerwami do mózgu. Tam rodzaj krótkotrwałej pamięci wzrokowej przechowuje niedawne obrazy i wykonuje wstępną selekcję przed głębszym rozpoznaniem. To wczesne filtrowanie redukuje ilość informacji, które trzeba przesyłać, pomagając mózgowi zachować szybkość i efektywność energetyczną. Nowa praca zapożycza tę ideę, dążąc do nadania sztucznym systemom wzrokowym lokalnej pamięci roboczej dla wizji.

Figure 1. Sztuczne oko przechowujące i analizujące obrazy ruchu bezpośrednio w własnej siatce pamięci, dla szybszego i bardziej energooszczędnego widzenia.
Figure 1. Sztuczne oko przechowujące i analizujące obrazy ruchu bezpośrednio w własnej siatce pamięci, dla szybszego i bardziej energooszczędnego widzenia.

Nowe partnerstwo piksela i pamięci

Naukowcy zbudowali układ sprzętowy, w którym każdy czujnik światła (piksel) jest połączony z wieloma drobnymi elementami pamięci na układzie scalonym. Te elementy, zwane memrystorami, mogą przechowywać zakres wartości, nie tylko proste włącz/wyłącz, co czyni je dobrze dostosowanymi do zapisywania odcieni jasności. W projekcie prosty obwód analogowy przetwarza sygnał świetlny piksela na napięcie, które bezpośrednio programuje kilka memrystorów jednocześnie. Taki układ jeden piksel — wiele memrystorów tworzy zwarty obraz sceny bezpośrednio w siatce pamięci, podobnie jak włókna nerwowe z siatkówki rozgałęziają się na wiele komórek mózgowych.

Szybkie „przewijanie” obrazów

Aby efektywnie rejestrować ruchome obrazy, zespół wprowadził strategię „przewijanej ekspozycji”. Zamiast uchwycić cały kadr i go przesyłać, system zapisuje jedną kolumnę pikseli do macierzy memrystorów, a następnie szybko przechodzi do kolejnej kolumny, aż cały obraz zostanie zapisany. Specjalna metoda pojedynczego impulsu programuje wiele memrystorów równolegle, kosztem niewielkiej utraty precyzji, za to z ogromnym przyspieszeniem. Testy na prostych sylwetkach ludzkich akcji i portrecie pokazują, że odtworzone obrazy z układu zachowują kluczowe kształty i twarze wystarczająco wyraźnie do niezawodnego rozpoznawania, mimo obecności niewielkiego szumu.

Figure 2. Sygnały pikseli wypełniają siatkę memrystorów kolumna po kolumnie, a następnie przetwarzanie in situ przekształca te wzory w kategorie działań.
Figure 2. Sygnały pikseli wypełniają siatkę memrystorów kolumna po kolumnie, a następnie przetwarzanie in situ przekształca te wzory w kategorie działań.

Przetwarzanie tam, gdzie obrazy mieszkają

Większość obecnego inteligentnego sprzętu wizyjnego nadal oddziela czujniki, pamięć i obliczenia. W przeciwieństwie do tego system wykonuje część „myślenia” bezpośrednio w tej samej macierzy memrystorów, która przechowuje obraz. Badacze stosują starannie dobrane wzory napięć wzdłuż zapisanego obrazu, pozwalając samej siatce wykonać podstawowe operacje matematyczne sieci neuronowej. Tylko skondensowane wyniki są następnie przesyłane do drugiego bloku memrystorów, który kończy klasyfikację. W testach na znanym zbiorze danych akcji ludzkich sprzęt rozpoznawał ruchy takie jak bieganie, skakanie i chodzenie z dokładnością 95,7 procent, zbliżoną do symulacji komputerowych.

Dlaczego to podejście może przekształcić „oczy” maszyn

Dzięki ścisłemu powiązaniu wykrywania, krótkotrwałego przechowywania i wczesnego przetwarzania, nowa architektura znacznie ogranicza konieczność przesyłania danych między oddzielnymi układami. Autorzy szacują, że ich projekt może skrócić opóźnienie związane z przechwytywaniem i zapisem obrazu o około dwa tysiące razy oraz zmniejszyć zużycie energii przy przetwarzaniu obrazu około 160-krotnie w porównaniu z typowym systemem cyfrowym korzystającym ze standardowej pamięci. Dla użytkowników oznaczałoby to kiedyś mniejsze, chłodniejsze i bardziej responsywne aparaty oraz urządzenia sterowane wzrokiem, które obserwują świat bardziej podobnie do nas — pobierając z każdej chwili tylko to, czego potrzebują.

Cytowanie: Sun, Y., Tong, P., Shen, J. et al. Data-In-situ Computing with One-Pixel-Multiple-Memristor Architecture for Neuromorphic Sequential Vision. Nat Commun 17, 4244 (2026). https://doi.org/10.1038/s41467-026-70860-y

Słowa kluczowe: neuromorficzne widzenie, memrystor, obliczenia w pamięci, obrazy sekwencyjne, energooszczędna sztuczna inteligencja