Clear Sky Science · sv
Kognitiva modeller möjliggör inferens i realtid av dolda motiv
Varför det spelar roll att gissa dolda mål
Varje dag tolkar du tyst andras intentioner—om en förare tänker lägga sig i din fil, om en cyklist kommer att stanna, eller om en kollega försöker hjälpa eller konkurrera. Dessa ögonblicksbedömningar bygger på att utläsa dolda motiv ur synliga rörelser. Dagens artificiella intelligens kan vara mycket exakt i förutsägelser, men agerar ofta som en ”svart låda” som inte kan förklara varför den fattade ett beslut. Denna studie frågar om psykologiska modeller av mänskligt beteende kan ge AI en mer mänsklig känsla för andras motiv, vilket gör den snabbare, mer korrekt och lättare att lita på.
En enkel lek med jaga och undvika
För att utforska detta byggde forskarna ett nedbantat datorspel. I varje 10-sekundersomgång styrde en mänsklig spelare ett triangelformat ”skepp” med joystick medan ett datorstyrt skepp rörde sig enligt ett av flera mönster. Den mänskliga spelaren tilldelades i hemlighet ett av tre mål: Attack (kollidera med det andra skeppet), Avoid (hålla sig långt borta) eller Inspect (stanna i närheten utan att kollidera). Datorskeppet kunde bete sig aggressivt, skyggt, nyfiket, defensivt eller bara vandra. Dessa kombinationer skapade situationer där skeppens rörelser antingen sammanföll eller stod i konflikt—till exempel en angripande människa som jagar ett skyggt datorskepp som hela tiden försöker fly.

Mäta hur väl människor läser dolda mål
Det första steget var att ta reda på hur väl människor själva kan läsa motiv ur rörelse. Teamet tog spelomgångar från de åtta bästa spelarpiloterna och gjorde varje runda till en kort video. Nya frivilliga tittade på dessa klipp och fick gissa den mänskliga spelarens mål—attack, undvik eller inspektera—efter att ha sett endast 1, 4, 7 eller 10 sekunder av rörelser. I flera grupper, inklusive deltagare med och utan autismdiagnos, identifierade människor målet korrekt ungefär två tredjedelar av gångerna. Noggrannheten ökade ju mer av rundan de såg, och prestationen var likartad mellan grupperna, vilket gav en stabil mänsklig referens för jämförelse.
En psykologisk ritning för rörelse
I stället för att mata råa videoaktiga data direkt till ett neuralt nätverk byggde författarna en kognitiv modell för att fånga de krafter som kan driva en persons rörelse. Deras modell ”global-local objective pursuit” (GLOP) antar att en spelare balanserar flera drag samtidigt: att hålla ett föredraget avstånd till motståndaren (för nära känns farligt, för långt missar möjligheter), att stanna i bra positioner på skärmen snarare än att fastna i ett hörn, och att matcha eller förutse det andra skeppets tempo och riktning. Dessa faktorer kombineras till en enda ”motivations”-riktning för rörelse, med tilläggstermer för att återspegla hur smidigt människor rör sig och hur mycket slump det finns i deras styrning.

Lära AI att läsa tankar från rörelse
För att göra denna modell användbar i realtid simulerade forskarna 100 000 spelomgångar med många olika inställningar av GLOP-parametrarna. De tränade sedan ett rekurrent neuralt nätverk att ta in sekvenser av skeppspositioner och snabbt uppskatta de dolda parametrarna—såsom föredraget avstånd eller hur starkt någon värderar global position. Detta nätverk kunde återfinna flera nyckelparametrar mycket exakt efter bara några sekunders rörelse. Därefter tränade de en uppsättning klassificerande nätverk att gissa spelarens mål på tre olika sätt: direkt från rå positionsdata, från enkla summerande statistik (som genomsnittligt avstånd och närmande kontra undvikande), eller från de kognitiva modellernas infererade parametrar. Slutligen byggde de ”ensemble”-klassificerare som kombinerade dessa källor.
Slår den mänskliga referensen
Alla AI-klassificerare nådde eller överträffade människors prestation, men hur informationen förbereddes för dem spelade roll. Nätverk som förlitade sig endast på rå rörelse eller endast på modellparametrar presterade liknande människor, omkring 66 % träffsäkerhet. Klassificerare som fick enkla summerande statistik gjorde bättre, och de bästa resultaten kom från att kombinera dessa statistik med den kognitiva modellens parametrar, vilket nådde cirka 72 % korrekt. Dessa modellinformerade system tränade också snabbare och mer stabilt än de som bara matades med rådata. När noggrannheten följdes ögonblick för ögonblick under varje runda kunde AI uppdatera sin gissning om spelarens dolda mål på mindre tid än tiden mellan skärmuppdateringar, vilket effektivt infererade avsikt i realtid.
Vad detta betyder för vardaglig AI
För en lekman är slutsatsen att väva in psykologisk teori i AI kan hjälpa maskiner att förstå inte bara vad människor gör, utan varför de gör det. Genom att översätta röriga rörelser till ett litet antal tolkbara motiv—som hur nära någon vill vara eller hur de väger säkerhet mot möjlighet—blir systemet både mer exakt och lättare att förklara. I framtida tillämpningar som självkörande bilar eller människa–AI-team kan denna typ av ”kognitiv front” hjälpa AI att tidigare och mer pålitligt förutsäga andra aktörers intentioner, potentiellt förhindra kollisioner och missförstånd samtidigt som den erbjuder människovänliga förklaringar som ”den andra föraren försöker sannolikt byta fil, inte bara driva åt sidan.”
Citering: Fitch, A.K., Kvam, P.D. Cognitive models facilitate real-time inference of latent motives. Sci Rep 16, 6444 (2026). https://doi.org/10.1038/s41598-026-37587-8
Nyckelord: teori om sinnet, kognitiv modellering, avsiktsinferens, människa–AI-interaktion, förklarbar AI