Clear Sky Science · pl
Ludzka ogólna uogólnialność poznawcza dla dużych modeli za pomocą nadzoru kierowanego reprezentacjami umysłowymi
Dlaczego warto uczyć SI myśleć jak my
Nowoczesna sztuczna inteligencja potrafi rozpoznawać twarze, etykietować zdjęcia i pisać płynne teksty, a mimo to wciąż ma problemy z elastycznym rozumieniem, które ludzie stosują na co dzień. Potrafimy zobaczyć jeden egzemplarz ptaka, a potem rozpoznać wiele gatunków ptaków, albo zauważyć, że hamak i wózek dziecięcy oba służą do leżenia i odpoczynku. Ten artykuł bada nowy sposób, by przybliżyć modele komputerowe do takiego ludzkiego myślenia, wykorzystując samą aktywność mózgu jako sygnał uczący.
Gdzie współczesne inteligentne maszyny zawodzą
Standardowe systemy uczenia głębokiego stają się lepsze głównie dzięki zwiększaniu rozmiaru i trenowaniu na większych zbiorach danych. Ten przepis dobrze działa w zadaniach konkretnych, takich jak rozpoznawanie skarpetek, łabędzi czy samochodów na zdjęciach. Jednak autorzy pokazują, że samo dodanie większej liczby parametrów przynosi niewiele poprawy w uchwyceniu pojęć abstrakcyjnych, takich jak odzież, ptaki czy szerszy podział na istoty żywe i nieożywione. W testach uczenia jednej próby modele wyraźnie poprawiały się w rozpoznawaniu konkretnych obiektów w miarę wzrostu, ale ledwo poprawiały się lub nawet pogarszały na poziomie wyższych kategorii. Analizy wewnętrznego rozdzielania pojęć wykazały, że w przeciwieństwie do ludzkiego mózgu, modele te nie grupowały naturalnie organizmów żywych oddzielnie od narzędzi i innych obiektów.

Pozwolić mózgowi poprowadzić maszynę
Aby sprostać tej luki, badacze zaprojektowali to, co nazywają nadzorem kierowanym reprezentacjami umysłowymi. Ochotnicy leżeli w skanerze mózgu, przeglądając wiele naturalnych obrazów. Z tych nagrań zespół wyodrębnił wzorce aktywności w obszarach kory wzrokowej, które są znane z kodowania bogatych, wysokopoziomowych informacji o tym, co widzimy. Jednocześnie sztuczna sieć przetwarzała te same obrazy. Kluczową ideą było wymuszenie, aby wewnętrzna struktura podobieństw i różnic między obiektami w sieci odpowiadała strukturze znalezionej w mózgu. Autorzy traktowali zarówno mózg, jak i model jako grafy powiązanych pojęć i użyli iteracyjnej procedury dopasowywania grafów, by zbliżyć je do siebie.
Jak zachowują się modele zgodne z mózgiem
Po tym specjalnym treningu modele nie ograniczały się do zapamiętywania nadzorowanych obrazów. Zamiast tego rozwinęły bardziej ludzki układ pojęć, który uogólniał się na wiele nowych obiektów nigdy wcześniej niepowiązanych z danymi mózgowymi. Ulepszone modele stały się znacznie lepsze w uczeniu jednej próby dla abstrakcyjnych kategorii, wykazując gęstsze skupiska dla pojęć takich jak zwierzę, pojazd czy instrument muzyczny. Ich wewnętrzne hierarchie zaczęły przypominać WordNet, ręcznie zbudowaną bazę danych relacji między angielskimi słowami, mimo że modele nigdy nie były explicite trenowane na tej strukturze. Gdy proszono je o wskazanie „innego” spośród trzech obrazów, modele prowadzone przez mózg wybierały w sposób bardziej zbliżony do dużych zestawów ludzkich ocen. Okazały się też trudniejsze do oszukania za pomocą drobnych, starannie przygotowanych zniekształceń obrazów, co sugeruje głębsze i bardziej odporne zrozumienie tego, czym są obiekty.
Okno na bardziej ludzką przestrzeń pojęciową
Autorzy poszli dalej i zbadali „pojęciową odmianę” (conceptual manifold), czyli niskowymiarową mapę leżącą u podstaw modeli zgodnych z mózgiem. Poruszając się po tej mapie i dekodując punkty na opisy w języku naturalnym, pokazali, że pobliskie pozycje odpowiadają semantycznie powiązanym ideom, takim jak różne rodzaje ubrań czy pojazdów. Interpolacje między regionami dawały płynne przejścia, np. przejście od urządzeń elektronicznych w kierunku zwierząt i dotarcie do koni przy przekraczaniu obszaru między pojazdami a ssakami kopytnymi. System potrafił także podsumować wiele powiązanych obrazów jednym sensownym zdaniem oraz wykonywać proste „arytmetyczne operacje pojęciowe”, dostosowując podpisy przez dodanie lub odjęcie elementów, takich jak koń czy motocykl, w sposób zgodny z ludzką intuicją.

Co to oznacza dla przyszłej SI
Mówiąc potocznie, praca ta sugeruje, że nadanie systemom SI wskazówki pochodzącej z ludzkiego mózgu może pomóc im wyjść poza dopasowywanie wzorców w kierunku czegoś bliższego naszemu sposobowi organizowania wiedzy. Zamiast tylko powiększać modele, badanie pokazuje, że kształtowanie ich wewnętrznej przestrzeni pojęć tak, by odzwierciedlała strukturę mózgu, może zwiększyć zdolność radzenia sobie z nowymi, abstrakcyjnymi i nietypowymi sytuacjami. Chociaż podejście wciąż zależy od szczegółowych skanów mózgu pojedynczych osób, rozszerzenie takiego treningu informowanego danymi mózgowymi mogłoby doprowadzić do systemów sztucznych bardziej adaptowalnych, interpretowalnych i zgodnych z tym, jak ludzie postrzegają i rozumują o świecie.
Cytowanie: Chen, J., Qi, Y., Wang, Y. et al. Human-like cognitive generalization for large models via mental representation-guided supervision. Nat Commun 17, 4709 (2026). https://doi.org/10.1038/s41467-026-71267-5
Słowa kluczowe: uczenie prowadzone przez mózg, pojęcia abstrakcyjne, głębokie sieci neuronowe, hierarchia pojęć, poznawcze uogólnianie