Clear Sky Science · sv

Mänsklig-liknande kognitiv generalisering för stora modeller via handledning styrd av mentala representationer

2026-04-01 · Tillbaka till index

Varför det spelar roll att lära AI att tänka som vi

Modern artificiell intelligens kan känna igen ansikten, märka foton och skriva flytande text, men den har fortfarande svårt med den typ av flexibel förståelse som människor använder varje dag. Vi kan se ett exempel på en fågel och sedan känna igen många slags fåglar, eller förstå att en hängmatta och en barnvagn båda innebär att något ligger för att vila. Den här artikeln undersöker ett nytt sätt att få datormodeller att närma sig den typen av mänskligt tänkande genom att använda hjärnaktivitet själv som en undervisande signal.

Var dagens smarta maskiner brister

Standardmetoder inom djupinlärning blir oftast mer kapabla genom att göra dem större och träna på mer data. Det fungerar väl för konkreta uppgifter som att känna igen strumpor, svanar eller bilar på bilder. Författarna visar dock att det att bara lägga till fler modellparametrar ger liten förbättring när det gäller att greppa abstrakta idéer som kläder, fåglar eller den bredare uppdelningen mellan levande och icke-levande ting. När modellerna testades på one-shot-inlärningsuppgifter förbättrades de kraftigt på specifika objekt när de blev större, men knappt alls — eller till och med sämre — på högre nivåers kategorier. Analys av hur modellerna internt separerade begrepp avslöjade att de, till skillnad från den mänskliga hjärnan, inte naturligt grupperade levande varelser åtskilda från verktyg och andra objekt.

Figure 1. Hur hjärnmönster kan lära AI att gruppera och förstå objekt mer som människor gör.

Låta hjärnan vägleda maskinen

För att tackla detta gap utformade forskarna vad de kallar handledning styrd av mentala representationer. Försökspersoner låg i en hjärnscanner medan de tittade på många naturliga bilder. Från dessa inspelningar extraherade teamet aktivitetsmönster i områden av visuella cortex som är kända för att koda rik, hög-nivå information om vad vi ser. Samtidigt bearbetade ett artificiellt nätverk samma bilder. Nyckelidén var att tvinga nätverkets interna struktur av likheter och skillnader mellan objekt att stämma överens med den struktur som fanns i hjärnan. Författarna behandlade både hjärna och modell som grafer av sammankopplade begrepp och använde en iterativ grafmatchningsprocedur för att föra dem närmare varandra.

Hur hjärnjusterade modeller beter sig

Efter denna särskilda träning memorerade modellerna inte bara de övervakade bilderna. Istället utvecklade de en mer mänsklig-lik karta av begrepp som generaliserade till många nya objekt som aldrig parats med hjärndata. De förbättrade modellerna blev mycket bättre på one-shot-inlärning för abstrakta kategorier och visade tajtare kluster för begrepp som djur, fordon eller musikinstrument. Deras interna hierarkier kom att likna WordNet, en handbyggd databas över hur engelska ord relaterar till varandra, trots att modellerna aldrig uttryckligen tränats på den strukturen. När de ombads välja "det udda objektet" bland tre bilder gjorde de hjärnledda modellerna val som bättre överensstämde med stora mängder mänskliga bedömningar. De visade sig också svårare att lura med små, noggrant utformade förvrängningar av bilder, vilket tyder på en djupare och mer robust förståelse av vad objekt är.

En inblick i ett mer mänskligt begreppsrum

Författarna gick vidare och undersökte den "konceptuella mångfald" eller lågdimensionella karta som ligger bakom de hjärnledda modellerna. Genom att förflytta sig i denna karta och avkoda punkter till naturliga språkbeskrivningar visade de att närliggande positioner motsvarade semantiskt relaterade idéer, såsom olika typer av kläder eller fordon. Interpolering mellan regioner gav jämna övergångar, som att glida från elektroniska enheter mot djur och landa på hästar när man korsade mellan fordon och klövdjur. Systemet kunde också sammanfatta flera relaterade bilder till en enda meningsfull mening och utföra enkel "begreppsaritmetik", justera bildtexter genom att lägga till eller ta bort element som häst eller motorcykel på ett sätt som stämde överens med mänsklig intuition.

Figure 2. Hur anpassning av AI till hjärnaktivitet omformar dess inre funktioner för att bättre hantera abstrakta kategorier och nya situationer.

Vad detta betyder för framtidens AI

I vardagliga termer tyder detta arbete på att en knuff från den mänskliga hjärnan kan hjälpa AI-system att röra sig bortom rent mönsterigenkännande mot något närmare vårt eget sätt att organisera kunskap. Istället för att bara göra modeller större visar studien att formandet av deras interna begreppsrum för att spegla hjärnans struktur kan öka deras förmåga att hantera nya, abstrakta och ovanliga situationer. Medan metoden fortfarande är beroende av detaljerade hjärnskanningar från individer, kan en utvidgad hjärninformrad träning leda till artificiella system som är mer anpassningsbara, tolkbara och i linje med hur människor uppfattar och resonerar om världen.

Citering: Chen, J., Qi, Y., Wang, Y. et al. Human-like cognitive generalization for large models via mental representation-guided supervision. Nat Commun 17, 4709 (2026). https://doi.org/10.1038/s41467-026-71267-5

Nyckelord: hjärnledd inlärning, abstrakta begrepp, djupt neuralt nätverk, begreppshierarki, kognitiv generalisering