Clear Sky Science · nl

UncerTrans: onzekerheidsbewuste temporele transformer voor vroege actievoorspelling

· Terug naar het overzicht

Waarom acties vroeg zien ons kan beschermen

Stel je een huisrobot voor die al aan de eerste polsbeweging kan onderscheiden of iemand veilig heet water in een mok giet of per ongeluk de waterkoker omstoot. In fabrieken, ziekenhuizen en slimme woningen delen machines steeds vaker de ruimte met mensen, en reageren pas nadat een ongeluk begonnen is is te laat. Dit artikel introduceert UncerTrans, een nieuw AI-systeem dat niet alleen voorspelt wat iemand waarschijnlijk zal doen op basis van het allereerste begin van een actie, maar ook aangeeft hoe zeker het is over die inschatting—een vermogen dat cruciaal is wanneer de veiligheid van mensen op het spel staat.

Figure 1
Figure 1.

Van kijken naar voorspellen van menselijke acties

De meeste huidige computer-visiesystemen herkennen wat iemand doet pas wanneer de actie bijna voltooid is: ze classificeren een volledige videoclips als "groenten snijden" of "een kop oppakken." Dat is nuttig voor latere analyse, maar niet om brandwonden, botsingen of valpartijen te voorkomen. Vroege actievoorspelling pakt een moeilijker probleem aan: bepalen welke volledige actie volgt nadat je slechts 10–20% ervan hebt gezien. De uitdaging is dat veel acties er in het begin op elkaar lijken—naar een waterkoker reiken kan zowel betekenen dat iemand een beker wil vullen als dat die persoon de waterkoker per ongeluk omstoot—dus een systeem moet met weinig informatie werken en toch gevaarlijke fouten vermijden.

Een machine leren zich op de juiste momenten te concentreren

UncerTrans pakt dit aan met een temporele transformer, een moderne neurale netwerkarchitectuur die oorspronkelijk voor taal ontwikkeld is. In plaats van woorden in een zin te lezen, kijkt hij naar korte videofragmenten in de tijd. Het model splitst een vroeg actiesignaal in een handvol segmenten en gebruikt een aandachtmechanisme om te beslissen welke momenten het belangrijkst zijn. Recente frames krijgen extra gewicht, wat onze intuïtie weerspiegelt dat de laatste beweging doorgaans de duidelijkste intentie onthult. Dit ontwerp stelt het systeem in staat zowel fijne details, zoals vingerbewegingen, als bredere patronen, zoals de baan van een arm, op te pikken, zelfs wanneer het maar een fractie van de volledige actie ziet.

Een machine laten toegeven wanneer ze onzeker is

Een belangrijke vernieuwing van UncerTrans is dat het niet stopt bij één hard antwoord. In plaats daarvan voert het dezelfde input vele licht verschillende keren door het netwerk met een techniek genaamd Monte Carlo dropout. Bij elke run worden verschillende interne verbindingen willekeurig uitgeschakeld, wat een iets andere voorspelling oplevert. Door te kijken hoeveel deze voorspellingen van elkaar verschillen, kan het systeem zijn eigen onzekerheid inschatten: sterk gecentreerde voorspellingen wijzen op hoge betrouwbaarheid, terwijl verspreide voorspellingen twijfel signaleren. UncerTrans maakt bovendien onderscheid tussen onzekerheid veroorzaakt door beperkte trainingservaring en ruis in de video zelf, en past het aantal testruns dynamisch aan—meer runs wanneer de eerste monsters dubbelzinnig lijken en minder wanneer ze al overeenkomen.

Figure 2
Figure 2.

Vertrouwen omzetten in veiligere beslissingen

Weten wanneer je het fout kunt hebben is alleen nuttig als het je gedrag verandert. UncerTrans zet zijn betrouwbaarheidsinschattingen om in praktische keuzes. Bij voorspellingen met lage onzekerheid kan het systeem daadkrachtig handelen—zoals een waarschuwing activeren of een robotarm uit de gevarenzone bewegen. Bij matige onzekerheid kan het kiezen voor veiligere, conservatieve gedragingen, zoals de snelheid van een robot verlagen of om meer informatie vragen. Als de onzekerheid zeer hoog is, kan het weigeren een beslissing te nemen en simpelweg blijven observeren. Tests op een grote “first-person” keuken-videodataset tonen dat UncerTrans komende acties nauwkeuriger voorspelt dan verschillende sterke alternatieven, vooral wanneer slechts de eerste 10% van een actie zichtbaar is. Opmerkelijk is dat wanneer het slechts de 30% meest onzekere gevallen weglaat, de nauwkeurigheid op de overgebleven voorspellingen stijgt naar ongeveer 84%, wat de praktische waarde van onzekerheidsbewuste filtering aantoont.

Wat dit betekent voor alledaagse mens–robot samenwerking

Voor een niet-specialist is de boodschap helder: UncerTrans is een stap richting machines die niet alleen onze volgende beweging raden uit beperkte aanwijzingen, maar ook weten wanneer die inschattingen betrouwbaar zijn. Door een tijdsgevoelig visie-model te combineren met een interne "vertrouwensmeter" kan het systeem sneller en veiliger reageren in rommelige, realistische omgevingen zoals keukens, fabrieken en zorginstellingen. Hoewel de methode nog rekenkundige kosten met zich meebrengt en verdere verfijning nodig heeft, biedt het een veelbelovend stappenplan voor toekomstige robots en monitorsystemen die gevaren vroegtijdig inschatten, voorzichtig reageren bij onzekerheid en uiteindelijk veiliger in menselijke omgevingen passen.

Bronvermelding: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

Trefwoorden: vroege actievoorspelling, mens-robot samenwerking, onzekerheid in AI, transformer vision-modellen, veilige intelligente systemen