Clear Sky Science · sv

Att uppnå mer människoliknande syn genom representativ anpassning till mänsklig EEG

· Tillbaka till index

Varför denna forskning är viktig

Modern artificiell intelligens kan känna igen objekt på foton med nästan mänsklig noggrannhet, men den "ser" fortfarande inte världen på samma sätt som våra hjärnor gör. Denna studie introducerar ett nytt sätt att finjustera datorvisionssystem med hjärnsignaler inspelade från frivilliga, vilket för AI ett steg närmare människolik visuell förståelse. Genom att direkt forma en synmodell med mänsklig hjärnaktivitet antyder arbetet framtida AI som inte bara är kraftfull, utan också organiserad mer som vårt eget sinne.

Figure 1
Figure 1.

Att lära maskiner med hjärnvågor

Författarna fokuserar på en enkel men djärv idé: istället för att bara träna synmodeller på bilder och etiketter, varför inte också visa dem hur den mänskliga hjärnan reagerar på dessa bilder? De använder elektroencefalografi (EEG), som mäter små spänningsförändringar på skalpen när personer betraktar bilder. EEG är ickeinvasivt, relativt billigt och kan samlas in snabbt över många försök. Från tio frivilliga använde teamet en stor öppen datamängd där varje person såg tiotusentals naturliga objektbilder medan deras EEG-signaler spelades in under de första två tiondelarna av en sekund efter att varje bild visades.

Bygga ett hjärnanpassat synnätverk

Med utgångspunkt i en befintlig djup synmodell kallad CORnet-S lade forskarna till en extra "bild-till-hjärna"-modul. När en bild matas in i nätverket utför modellen nu två uppgifter samtidigt: den gissar vilket objekt som finns och den försöker förutsäga det EEG-mönster som en riktig människa visade för samma bild. För detta leds signaler från flera interna lager i nätverket in i EEG-modulen, som lär sig att generera en kort tidsserie som matchar de mänskliga data. Under träning belönas modellen både för korrekt objektigenkänning och för att producera EEG-liknande aktivitet, vilket får dess interna representationer att likna de i det mänskliga visuella systemet.

Närmare hjärnaktivitet över metoder

Efter att ha tränat tio sådana "ReAlnets" (en per försöksperson) frågade teamet om dessa modeller verkligen blivit mer hjärneliknande. De jämförde mönstret av relationer mellan bilder inuti modellen med mönstret som sågs i mänskligt EEG, med en teknik kallad representational similarity analysis. Över alla huvudlager och tidpunkter mellan 50 och 200 millisekunder var ReAlnets konsekvent mer lika mänskligt EEG än den ursprungliga CORnet-S och andra standardmodeller, med toppvinster på upp till cirka 6% och relativa förbättringar så höga som 40%. Viktigt är att förbättringen höll även för nya objektkategorier som aldrig användes under träningen, vilket visar att anpassningen generaliserar bortom träningsmängden.

Figure 2
Figure 2.

Sträcker sig till hjärnavbildning och beteende

En central fråga är om modellerna bara lärde sig EEG:s egenheter, eller fångade något mer allmänt om mänsklig syn. För att testa detta vände sig författarna till en separat hjärnavbildningsdatamängd, där andra frivilliga såg naturliga bilder, abstrakta former och bokstäver inne i en MRI-skanner. Trots att ReAlnets aldrig sett dessa data matchade deras interna mönster närmare signaler från flera visuella hjärnregioner än vad den ursprungliga modellen gjorde. Dessutom korrelerade graden av förbättring för EEG och för MRI starkt över modellerna, vilket tyder på att en gemensam kärnrepresentation stärktes. Forskarna utvärderade också hur ofta modeller och människor gjorde liknande misstag i krävande objektigenkänningsuppgifter. Även här överensstämde ReAlnets bättre med mänskligt beteende än baslinjemodellerna.

Personlig och generell hjärnalik syn

Eftersom varje ReAlnet finjusterades efter en persons EEG kunde författarna undersöka individuella skillnader. De fann att personliga modeller avvek mer från varandra i djupare lager, vilket speglar hur skillnader mellan människor växer från tidiga till högre visuella hjärnområden. Ändå generaliserade varje persons modell fortfarande bättre till andras EEG än den ojusterade baslinjen gjorde, vilket visar att den fångade både gemensam och försökspersonsspecifik struktur. Teamet utökade också sitt ramverk till en annan arkitektur, ResNet18, och såg återigen förbättrad anpassning till EEG, MRI och (i mindre grad) beteende, vilket antyder att tillvägagångssättet är flexibelt snarare än knutet till en enda modelldesign.

Vad detta betyder för vardaglig förståelse

För en icke-specialist är slutsatsen att det nu är möjligt att finjustera synalgoritmer direkt med ickeinvasiva inspelningar från den mänskliga hjärnan. De resulterande ReAlnets känner inte bara igen objekt; de organiserar information på sätt som mer liknar våra egna visuella banor, över elektriska hjärnsignaler, MRI-avbildning och till och med mönster av misstag i igenkänningstester. Även om förbättringarna är måttliga och många tekniska utmaningar återstår, erbjuder detta arbete ett konkret steg mot AI-system vars interna funktioner formas av den mänskliga hjärnan i sig, vilket potentiellt kan leda till mer robusta, tolkbara och personanpassade teknologier i framtiden.

Citering: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w

Nyckelord: hjärnanpassad AI, EEG-syn, objektigenkänning, beräkningsneurovetenskap, människolik perception