Clear Sky Science · sv

UncerTrans: osäkerhetsmedveten temporär transformer för tidig handlingsprediktion

2026-02-03 · Tillbaka till index

Varför tidig upptäckt av handlingar kan skydda oss

Tänk dig en hushållsrobot som, redan utifrån den första handledsrörelsen, kan avgöra om någon är på väg att hälla hett vatten säkert i en mugg eller av misstag välta vattenkokaren. I fabriker, sjukhus och smarta hem delar maskiner i allt större utsträckning utrymme med människor, och att reagera först när en olycka har börjat är för sent. Denna artikel presenterar UncerTrans, ett nytt AI-system som inte bara förutser vad en person sannolikt kommer att göra baserat på början av en handling, utan också berättar hur säker den är på sin egen gissning—en förmåga som är avgörande när människors säkerhet står på spel.

Från att iaktta till att förutsäga mänskliga handlingar

De flesta nuvarande datorvisionssystem känner igen vad någon gör först när handlingen nästan är avslutad: de klassificerar ett komplett videoklipp som ”skär grönsaker” eller ”plockar upp en kopp”. Det är användbart för efterhandsanalys, men inte för att förebygga brännskador, kollisioner eller fall. Tidig handlingsprediktion tar sig an ett svårare problem: att bestämma vilken hel handling som är på väg att ske efter att ha sett bara 10–20 % av den. Utmaningen är att många handlingar ser likartade ut i början—att sträcka sig mot en vattenkokare kan betyda att man ska hälla en dryck eller råka stöta omkull den—så ett system måste arbeta med begränsad information och ändå undvika farliga misstag.

Att lära en maskin att fokusera på rätt ögonblick

UncerTrans hanterar detta genom att använda en temporär transformer, en modern neuronnätsarkitektur ursprungligen utvecklad för språk. Istället för att läsa ord i en mening betraktar den korta videobitar över tid. Modellen delar upp en tidig handlingssekvens i ett fåtal segment och använder en attention-mekanism för att avgöra vilka ögonblick som är viktigast. Nyare bildrutor får extra vikt, vilket speglar vår intuition att den senaste rörelsen ofta avslöjar den tydligaste avsikten. Denna design gör det möjligt för systemet att fånga både fina detaljer, som fingertöjens rörelser, och bredare mönster, som armens bana, även när det bara ser en bråkdel av hela handlingen.

Att få en maskin att erkänna när den är osäker

En viktig innovation i UncerTrans är att den inte nöjer sig med ett enda kategoriskt svar. I stället körs samma indata genom nätverket många något olika gånger med en teknik som kallas Monte Carlo-dropout. Varje körning släpper olika interna kopplingar slumpmässigt, vilket ger en något annan prediktion. Genom att undersöka hur mycket dessa prediktioner skiljer sig åt kan systemet uppskatta sin egen osäkerhet: tätt samlade prediktioner signalerar hög tilltro, medan spridda sådana varnar för tvekan. UncerTrans särbehandlar dessutom osäkerhet som beror på begränsad träningsdata från brus i själva videon, och den anpassar hur många testkörningar den utför i realtid—använder fler när de första proverna verkar tvetydiga och färre när de redan är överens.

Att omvandla tillit till säkrare beslut

Att veta när man kan ha fel är bara användbart om det påverkar beteendet. UncerTrans omvandlar sina förtroendeuppskattningar till praktiska val. För prediktioner med låg osäkerhet kan systemet agera beslutsamt—till exempel utlösa en varning eller flytta en robotarm ur fara. När osäkerheten är måttlig kan det välja säkrare, konservativa beteenden, som att sakta ner en robot eller be om mer information. Om osäkerheten är mycket hög kan det avstå från att fatta ett beslut och helt enkelt fortsätta att observera. Tester på en stor ”förstapersons” köksvideodatamängd visar att UncerTrans förutsäger kommande handlingar mer noggrant än flera starka alternativ, särskilt när bara de första 10 % av en handling är synliga. Anmärkningsvärt är att när systemet avvisar bara de 30 % mest osäkra fallen, stiger noggrannheten på de återstående prediktionerna till cirka 84 %, vilket visar det praktiska värdet av osäkerhetsmedveten filtrering.

Vad detta innebär för vardagligt människa–robot-samarbete

För en icke-specialist är budskapet enkelt: UncerTrans är ett steg mot maskiner som inte bara gissar vårt nästa drag utifrån begränsade ledtrådar utan också vet när dessa gissningar är pålitliga. Genom att kombinera en tidskänslig visuell modell med en intern ”förtroendemätare” kan systemet reagera snabbare och säkrare i röriga, verkliga miljöer som kök, fabriker och vårdinrättningar. Metoden innebär fortfarande beräkningskostnader och behöver ytterligare förfining, men den erbjuder en lovande mall för framtida robotar och övervakningssystem som tidigt förutser faror, agerar försiktigt vid osäkerhet och i slutändan passar bättre in i mänskliga miljöer på ett säkrare sätt.

Citering: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

Nyckelord: tidig handlingsprediktion, människa-robot-samarbete, osäkerhet i AI, transformer-visionsmodeller, säkra intelligenta system