Clear Sky Science · pl

Modelowanie uwagi i łączenia cech w mózgu za pomocą dwukierunkowego bramkowania rekurencyjnego

· Powrót do spisu

Jak mózg wie, na co patrzeć

Z każdej chwili twoje oczy zasypują mózg znacznie większą ilością informacji, niż mógłbyś świadomie przetworzyć. A jednak bez wysiłku wyłapujesz znajomą twarz w tłumie, śledzisz poruszający się samochód czy szukasz kluczy na zagraconym stole. Ta zdolność skupienia się na istotnym, powiązania odpowiednich cech i ignorowania rozproszeń nazywa się uwagą. Opisany artykuł przedstawia nowy, inspirowany mózgiem model komputerowy, który ma wyjaśnić, jak z jednej podstawowej zasady może wynikać tak wiele odmian uwagi.

Figure 1
Figure 1.

Pojedynczy model dla różnych form skupienia

Uwaga to nie jedna rzecz. Czasem koncentrujemy się na miejscu w przestrzeni, jak reflektor. Innym razem nastawiamy się na cechę, na przykład określony kolor, a bywa też, że skupiamy się na całych obiektach, utrzymując ich części razem, nawet gdy się poruszają lub są częściowo zasłonięte. Autorzy proponują, że zamiast oddzielnych, wyspecjalizowanych systemów, wszystkie te formy uwagi mogą wynikać z wspólnego wzorca obwodu w ścieżce wzrokowej mózgu. Budują model naśladujący pętlę grzbietową i brzuszną strumienia wzrokowego — obszary mózgu zamieniające surowe piksele z siatkówki w rozpoznawalne obiekty. W ich projekcie jedna droga przesyła informacje w górę, wydobywając cechy wzrokowe, podczas gdy druga wysyła sygnały w dół, decydując, które cechy należy wzmocnić lub osłabić.

Bramki, które komunikują się w obie strony

Rdzeń modelu to coś, co autorzy nazywają dwukierunkowym bramkowaniem rekurencyjnym. Wyobraź sobie stos etapów przetwarzania wzrokowego, od prostych krawędzi po złożone kształty. Na każdym etapie sygnał poruszający się do przodu niesie informacje o tym, co jest na obrazie, natomiast sygnał idący wstecz i w bok niesie informacje o tym, co jest aktualnie istotne dla zadania. Te sygnały spotykają się przy «bramkach», które multiplikatywnie zwiększają lub zmniejszają aktywność cech przez kilka kroków czasowych. Dzięki połączeniom rekurencyjnym model może stopniowo doprecyzowywać fokus, podobnie jak robisz to, gdy najpierw zerkasz na zabałaganioną scenę, a potem coraz dokładniej wyławiasz cel. Architektura jest trenowana standardowymi technikami uczenia maszynowego na dwóch podstawowych celach — klasyfikacji tego, co jest obecne, i segmentacji gdzie to się znajduje — choć nie mówi się jej jawnie, jak implementować uwagę.

Uczenie się wyszukiwania, śledzenia i ignorowania rozproszeń

Po przeszkoleniu model sprawdzono na zestawie klasycznych zadań uwagi zwykle stosowanych u ludzi i zwierząt. Używając obrazów zbudowanych z ręcznie pisanych cyfr oraz naturalnych fotografii zwierząt, uczy się rozpoznawać obiekty w zagraceniu, grupować elementy wskazane przez sygnał, śledzić poruszające się obiekty i prowadzić wyszukiwanie wzrokowe na podstawie wskazówek wizualnych lub symbolicznych, jak strzałki. Potrafi wyróżnić pojedynczy nieregularny element w siatce, przełączać uwagę z jednego obiektu na drugi bez «zatrzymywania się» na tym samym i śledzić cel w czasie, ignorując rozpraszacze. Co zaskakujące, wiele z tych zachowań pojawia się nawet gdy model otrzymuje informacje zwrotne tylko o ostatecznej odpowiedzi, a nie o tym, gdzie powinien patrzeć — co sugeruje, że strategie uwagowe mogą powstać jako efekt uboczny uczenia się rozwiązywania istotnych zadań.

Odbicie ludzkiego postrzegania i sygnałów mózgowych

Autorzy pytają następnie, czy model zachowuje się jak ludzie w bardziej subtelny sposób. W kontrolowanych testach z prostymi wzorzystymi łatami model wykazuje lepszą czułość, gdy wskazanie trafia w poprawne miejsce, a jego wydajność spada przy wielu rozpraszaczach — co odzwierciedla ludzkie obserwacje dotyczące czułości kontrastu i obciążenia percepcyjnego. Model także «daje się zwieść» klasyilnemu złudzeniu percepcyjnemu, w którym widoczny zakrywacz ułatwia rozpoznanie rozfragmentowanego kształtu, co sugeruje, że reprezentuje figurę i tło w sposób przypominający mózg. Zaglądając do sieci, jednostki w głębszych warstwach wykazują wzrost odpowiedzi, gdy preferowany obiekt jest w centrum uwagi, bez zmiany podstawowego dostrajania — podobnie jak neurony w korze wzrokowej naczelnych. Odmienne grupy jednostek zachowują się jak detektory cech i komórki «własności brzegu», które pomagają ustalić, która strona krawędzi należy do figury, a która do tła.

Figure 2
Figure 2.

Dlaczego to ważne dla mózgów i maszyn

Praca sugeruje, że wiele charakterystycznych cech biologicznej uwagi — orientowanie się na wskazania, filtrowanie nieistotnego bałaganu, poszukiwanie celów, łączenie cech w spójne obiekty, a nawet niektóre błędy świadomości — może wynikać z jednej zasady architektonicznej: rekurencyjnego bramkowania między ścieżką cech a ścieżką uwagi. Prościej mówiąc, model pokazuje, jak system, który wielokrotnie przeważa to, co widzi na podstawie aktualnych celów i kontekstu, może nauczyć się «zwracać uwagę», nie będąc do tego jawnie zaprogramowany. To daje neuronaukowcom konkretny, testowalny model do zrozumienia uwagi i łączenia cech w mózgu, a badaczom sztucznej inteligencji — inspirowaną biologicznie alternatywę dla dzisiejszych głównie jednokierunkowych projektów.

Cytowanie: Salehi, S., Lei, J., Benjamin, A.S. et al. Modeling attention and binding in the brain through bidirectional recurrent gating. Nat Commun 17, 4072 (2026). https://doi.org/10.1038/s41467-026-72146-9

Słowa kluczowe: uwaga wzrokowa, łączenie cech, rekurencyjne sieci neuronowe, neuronauka obliczeniowa, Sztuczna inteligencja inspirowana mózgiem