Clear Sky Science · pl
Osiąganie bardziej ludzkiej wizji mózgu poprzez wyrównanie reprezentacji EEG ludzi
Dlaczego te badania są istotne
Nowoczesna sztuczna inteligencja potrafi rozpoznawać obiekty na zdjęciach z niemal ludzką dokładnością, jednak wciąż nie „widzi” świata tak jak nasze mózgi. W tym badaniu przedstawiono nowy sposób dostrajania systemów widzenia komputerowego za pomocą sygnałów mózgowych rejestrowanych od ochotników, co przybliża SI do ludzkiego rozumienia wzrokowego. Poprzez bezpośrednie kształtowanie modelu wzroku aktywnością mózgową ludzi, praca ta sugeruje przyszłe systemy AI, które będą nie tylko potężne, ale też zorganizowane bardziej podobnie do naszych własnych umysłów.

Uczenie maszyn falami mózgowymi
Autorzy koncentrują się na prostym, lecz odważnym pomyśle: zamiast tylko trenować modele wzrokowe na obrazach i etykietach, dlaczego nie pokazać im także, jak mózg człowieka reaguje na te obrazy? Wykorzystują elektroencefalografię (EEG), która mierzy drobne zmiany napięcia na skórze głowy, gdy ludzie oglądają obrazy. EEG jest nieinwazyjne, stosunkowo tanie i może być rejestrowane szybko w wielu próbach. Z dziesięciu ochotników zespół użył dużego otwartego zbioru danych, w którym każda osoba oglądała dziesiątki tysięcy naturalnych obrazów obiektów, podczas gdy ich sygnały EEG były rejestrowane w pierwszych dwóch dziesiątych sekundy po pojawieniu się każdego obrazu.
Budowanie sieci wzrokowej zgodnej z mózgiem
Startując od istniejącego głębokiego modelu wzrokowego o nazwie CORnet-S, badacze dodali dodatkowy moduł „obraz-do-mózgu”. Gdy obraz trafia do sieci, model wykonuje teraz dwa zadania jednocześnie: zgaduje, jaki obiekt się pojawił, oraz próbuje przewidzieć wzorzec EEG, który rzeczywisty człowiek wykazał dla tego samego obrazu. W tym celu sygnały z kilku wewnętrznych warstw sieci są kierowane do modułu EEG, który uczy się generować krótką serię czasową odpowiadającą danym ludzkim. Podczas treningu model jest nagradzany zarówno za poprawne rozpoznanie obiektu, jak i za wytwarzanie aktywności przypominającej EEG, skłaniając jego wewnętrzne cechy do przypominania tych z ludzkiego systemu wzrokowego.
Bliżej aktywności mózgu w różnych metodach
Po wytrenowaniu dziesięciu takich „ReAlnetów” (po jednym na uczestnika), zespół sprawdził, czy modele rzeczywiście stały się bardziej podobne do mózgu. Porównali wzorzec relacji między obrazami wewnątrz modelu ze wzorcem widzianym w ludzkim EEG, używając techniki zwanej analizą podobieństwa reprezentacji (representational similarity analysis). We wszystkich głównych warstwach i w przedziale czasowym 50–200 milisekund ReAlnety były konsekwentnie bardziej podobne do ludzkiego EEG niż oryginalny CORnet-S i inne standardowe modele, z maksymalnymi przyrostami sięgającymi około 6% i względnymi poprawami sięgającymi nawet 40%. Co istotne, poprawa utrzymywała się także dla nowych kategorii obiektów nigdy nieużywanych podczas treningu, co pokazuje, że wyrównanie uogólnia się poza zestaw treningowy.

Sięganie do skanów mózgu i zachowania
Kluczowe pytanie brzmiało, czy modele nauczyły się jedynie idiosynkrazji EEG, czy uchwyciły coś bardziej ogólnego o ludzkim wzroku. Aby to sprawdzić, autorzy sięgnęli po oddzielny zestaw danych obrazujących mózg, w którym inni ochotnicy oglądali obrazy naturalne, abstrakcyjne kształty i litery w skanerze MRI. Mimo że ReAlnety nigdy nie widziały tych danych, ich wewnętrzne wzorce bardziej odpowiadały sygnałom z kilku obszarów wzrokowych mózgu niż w przypadku modelu bazowego. Co więcej, stopień poprawy dla EEG i MRI był silnie skorelowany wśród modeli, co sugeruje, że wzmocniona została wspólna rdzenna reprezentacja. Badacze ocenili również, jak często modele i ludzie popełniali podobne błędy w wymagających zadaniach rozpoznawania obiektów. Tutaj także ReAlnety lepiej zgrywały się z ludzkim zachowaniem niż modele bazowe.
Spersonalizowana i ogólna wizja podobna do mózgu
Ponieważ każdy ReAlnet był dostrojony do EEG jednej osoby, autorzy mogli badać różnice indywidualne. Odkryli, że spersonalizowane modele różnicowały się między sobą bardziej w głębszych warstwach, co odzwierciedla, jak różnice między ludźmi narastają od wczesnych do wyższych obszarów wzrokowych mózgu. Jednak model każdej osoby nadal uogólniał do EEG innych osób lepiej niż niedostosowany model bazowy, pokazując, że uchwycił zarówno wspólną, jak i specyficzną dla uczestnika strukturę. Zespół rozszerzył też ramy metody na inną architekturę, ResNet18, i ponownie zaobserwował poprawę dopasowania do EEG, MRI i (w mniejszym stopniu) zachowania, co sugeruje, że podejście jest elastyczne, a nie związane z jednym projektem modelu.
Co to oznacza dla codziennego rozumienia
Dla osoby niebędącej specjalistą sedno sprawy jest takie, że obecnie możliwe jest dostrojenie algorytmów wzrokowych bezpośrednio za pomocą nieinwazyjnych zapisów z ludzkiego mózgu. Wynikowe ReAlnety nie tylko rozpoznają obiekty; organizują informacje w sposób bliższy naszym własnym ścieżkom wzrokowym, w oparciu o sygnały elektryczne mózgu, skany MRI, a nawet wzorce błędów w zadaniach rozpoznawania. Chociaż poprawy są umiarkowane i pozostaje wiele wyzwań technicznych, ta praca stanowi konkretny krok w kierunku systemów AI, których wewnętrzne działanie jest kształtowane przez sam ludzki mózg — co może prowadzić do bardziej odpornej, bardziej interpretable i szytej na miarę technologii w przyszłości.
Cytowanie: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w
Słowa kluczowe: sztuczna inteligencja zgodna z mózgiem, wizja EEG, rozpoznawanie obiektów, neuronauki obliczeniowe, ludzka percepcja