Clear Sky Science · sv

Mänsklig och algoritmisk visuell uppmärksamhet i köruppgifter

· Tillbaka till index

Varför det spelar roll för vardagskörning

När bilar blir mer automatiserade kvarstår en central fråga: ser självkörande system verkligen vägen på samma sätt som människor gör? Denna studie undersöker hur mänskliga förare och artificiell intelligens riktar sin visuella uppmärksamhet i trafiken, och visar att ett noggrant tillskott av människoliknande uppmärksamhet kan göra köralgoritmer både smartare och säkrare—utan att kräva gigantiska, strömkrävande AI-modeller.

Figure 1
Figure 1.

Hur människans ögon rör sig på vägen

Forskarna placerade först nybörjare och erfarna förare i en simulerad körmiljö och spårade deras ögonrörelser medan de utförde tre vanliga säkerhetsuppgifter: att upptäcka faror, bedöma om det är säkert att svänga eller byta fil, och att upptäcka udda, malplacerade föremål. De fann att förarnas uppmärksamhet följde en pålitlig trestegsrytm. I scannings-fasen, strax efter att en scen framträder, sveper ögonen brett över synfältet, mest styrda av var saker är placerade. I undersöknings-fasen låser uppmärksamheten sig på den enskilt mest informativa regionen—till exempel en gående som korsar eller en blockerande bil—och studerar dess detaljer och innebörd. Slutligen, i omvärderings-fasen jämför förarna det viktiga objektet med andra och förflyttar blicken fram och tillbaka för att bekräfta sitt beslut.

Var maskiner tittar jämfört med var människor tittar

Teamet byggde sedan en uppmärksamhetsbaserad djupinlärningsmodell för körscener och jämförde dess interna ”uppmärksamhetskartor” med de som kom från mänskliga ögonrörelser. Att träna modellen på generell objektigenkänning gjorde dess uppmärksamhet något mer människolik, men finjustering för specifika köruppgifter förde den ofta bort från mänskliga mönster, särskilt i den rika, betydelsefokuserade undersökningsfasen. Sammantaget förblev korrelationerna mellan mänsklig och algoritmisk uppmärksamhet måttliga, vilket antyder att dagens kör-AI har svårt att upptäcka de organiserande principerna bakom var människor tittar och varför.

Figure 2
Figure 2.

Att lära bilar att låna människors fokus

För att se vilka delar av mänsklig uppmärksamhet som faktiskt hjälper maskiner matade författarna in olika faser av mänsklig blick i sin körmodell. Att direkt samla in ögonspårningsdata för miljontals bilder är opraktiskt, så de tränade en separat ”generator för mänsklig uppmärksamhet” på ett litet urval från bara fem förare. Denna generator lärde sig att förutsäga människoliknande uppmärksamhetsvärmekartor för nya scener. När huvudmodellen för körning använde endast den rumsliga, tidiga scanningsfasen försämrades ofta dess prestanda på anomalidetektion och banplanering eller så genererade den säkrare utseende banor som var mer kollisionsbenägna. I kontrast förbättrades noggrannheten när modellen använde undersökningsfasen—där människor koncentrerar sig på den enstaka mest meningsfulla regionen—beyond tidigare metoder som använde fullängdsblick, och kollisionstal i planeringsuppgifter sjönk.

Vad stora vision-språk-modeller fortfarande missar

Forskarna testade också stora vision–språk-modeller som svarar på körrelaterade frågor eller genererar täta bildtexter för 3D-gatsscener. För en frågesvarsuppgift som betonar högre ordnings resonemang hjälpte tillsatt mänsklig uppmärksamhet knappt och skadade ibland, vilket antyder att sådana modeller redan fångar mycket av den abstrakta kunskap som behövs. Men för en krävande beskrivningsuppgift som kräver att precisa ord knyts till precisa objekt gav undersökningsfasens mänskliga uppmärksamhet fortfarande stora förbättringar. Det tyder på att stora modeller kan resonera väl i allmänhet, men fortfarande snubblar när de måste knyta ord tätt till exakt bestämda punkter i en rörig visuell scen—en lucka som människors blick kan hjälpa till att täppa igen.

Vad detta innebär för säkrare automatiserade bilar

Enkelt uttryckt menar studien att det som verkligen skiljer människor från dagens kör-AI inte bara är var vi tittar, utan hur vi omedelbart bedömer vad som är viktigt i en scen. Den där kompakta utblåsen av semantisk uppmärksamhet—när vi granskande betraktar den enda region som avgör om en situation är säker eller farlig—visar sig vara exakt den signal många algoritmer saknar. Genom att lära sig efterlikna denna fas från en liten mängd ögonspårningsdata kan körsystem få människolik förståelse för vägsituationer utan att enbart förlita sig på allt större, dyrare AI-modeller. Denna ”semantiska genväg” kan vara ett effektivt sätt att göra framtida automatiserade bilar mer pålitliga i de stökiga, oförutsägbara förhållanden som råder i verklig trafik.

Citering: Zheng, C., Li, P., Jin, B. et al. Human and algorithmic visual attention in driving tasks. npj Artif. Intell. 2, 23 (2026). https://doi.org/10.1038/s44387-026-00079-1

Nyckelord: autonom körning, visuell uppmärksamhet, ögonspårning hos människor, vision-språk-modeller, trafiksäkerhet