Clear Sky Science · pl

UncerTrans: transformator czasowy świadomy niepewności do wczesnej predykcji działań

2026-02-03 · Powrót do spisu

Dlaczego wczesne dostrzeganie działań może nas chronić

Wyobraź sobie robota domowego, który potrafi na podstawie pierwszego ruchu nadgarstka stwierdzić, czy ktoś zamierza bezpiecznie nalać gorącej wody do kubka, czy przypadkowo przewróci czajnik. W zakładach, szpitalach i inteligentnych domach maszyny coraz częściej dzielą przestrzeń z ludźmi, a reagowanie dopiero po rozpoczęciu wypadku jest już za późno. Artykuł wprowadza UncerTrans, nowy system SI, który nie tylko przewiduje, co osoba prawdopodobnie zrobi na podstawie bardzo wczesnych sygnałów akcji, lecz także informuje, jak bardzo jest pewny swojej prognozy — umiejętność kluczową, gdy stawką jest bezpieczeństwo ludzi.

Od obserwacji do prognozowania ludzkich działań

Większość współczesnych systemów widzenia komputerowego rozpoznaje, co ktoś robi, dopiero gdy działania są niemal zakończone: klasyfikują kompletny klip wideo jako „krojenie warzyw” lub „podnoszenie kubka”. To przydatne do późniejszej analizy, ale nie do zapobiegania oparzeniom, kolizjom czy upadkom. Wczesna predykcja działań stawia trudniejsze zadanie: określenie, jaka pełna akcja nastąpi, mając do dyspozycji jedynie 10–20% jej przebiegu. Problem w tym, że wiele działań wygląda podobnie na początku — sięgnięcie w stronę czajnika może oznaczać nalewanie napoju lub jego potrącenie — więc system musi działać przy bardzo ograniczonej informacji i jednocześnie unikać niebezpiecznych błędów.

Nauka skupiania się na właściwych momentach

UncerTrans rozwiązuje to, korzystając z transformatora czasowego — nowoczesnej architektury sieci neuronowej opracowanej początkowo do języka. Zamiast czytać słowa w zdaniu, analizuje krótkie fragmenty wideo rozłożone w czasie. Model dzieli wczesną sekwencję działania na kilka segmentów i wykorzystuje mechanizm atencji, by zdecydować, które momenty są najważniejsze. Nowszym klatkom nadaje większą wagę, co odpowiada naszej intuicji, że najnowszy ruch zwykle ujawnia intencję najczytelniej. Takie rozwiązanie pozwala systemowi wychwycić zarówno drobne detale, jak ruchy palców, jak i szersze wzorce, jak trajektoria ramienia, nawet gdy widzi tylko ułamek całej akcji.

Sprawienie, by maszyna przyznała się do niepewności

Kluczową innowacją UncerTrans jest to, że nie poprzestaje na jednej twardej odpowiedzi. Zamiast tego wielokrotnie przepuszcza ten sam wejściowy materiał przez sieć, stosując technikę zwaną Monte Carlo dropout. Przy każdym przebiegu losowo „wyłącza” inne wewnętrzne połączenia, co generuje nieco inne przewidywanie. Analizując, jak bardzo te prognozy się różnią, system szacuje własną niepewność: ściśle zgrupowane prognozy świadczą o dużej pewności, a rozproszone — o wątpliwościach. UncerTrans dodatkowo rozdziela niepewność wynikającą z ograniczonego doświadczenia treningowego od hałasu w samym wideo i dynamicznie dostosowuje liczbę testowych przebiegów — wykonując ich więcej, gdy pierwsze próbki wyglądają niejednoznacznie, i mniej, gdy szybko osiągnięto zgodność.

Przekształcanie pewności w bezpieczniejsze decyzje

Świadomość własnych pomyłek jest użyteczna tylko wtedy, gdy wpływa na zachowanie. UncerTrans przekłada estymaty pewności na praktyczne wybory. Przy przewidywaniach o niskiej niepewności system może działać zdecydowanie — np. uruchomić ostrzeżenie albo przesunąć ramię robota z drogi. Gdy niepewność jest umiarkowana, może wybrać zachowania bardziej zachowawcze, jak spowolnienie robota czy poproszenie o dodatkowe informacje. Jeśli niepewność jest bardzo wysoka, system może odmówić podjęcia decyzji i po prostu dalej obserwować. Testy na dużym zbiorze „pierwszoosobnych” nagrań kuchennych pokazują, że UncerTrans przewiduje nadchodzące działania dokładniej niż kilka silnych alternatyw, szczególnie gdy widoczne jest tylko pierwsze 10% akcji. Co istotne, po odrzuceniu jedynie 30% najbardziej niepewnych przypadków dokładność pozostałych prognoz rośnie do około 84%, co potwierdza praktyczną wartość filtrowania z uwzględnieniem niepewności.

Co to oznacza dla codziennej współpracy człowieka z robotem

Dla laika przekaz jest prosty: UncerTrans to krok w kierunku maszyn, które nie tylko przewidują nasz następny ruch na podstawie skąpych wskazówek, lecz także potrafią ocenić, kiedy tym przewidywaniom można zaufać. Łącząc wrażliwy na czas model widzenia z wewnętrznym „miernikiem pewności”, system może reagować szybciej i bezpieczniej w zagraconych, rzeczywistych środowiskach, takich jak kuchnie, fabryki czy placówki opiekuńcze. Choć metoda wiąże się wciąż z kosztami obliczeniowymi i będzie wymagać dalszych udoskonaleń, oferuje obiecujący wzorzec dla przyszłych robotów i systemów monitorujących, które wcześnie przewidują zagrożenia, postępują ostrożnie w wątpliwych sytuacjach i ostatecznie lepiej wpisują się w ludzką przestrzeń.

Cytowanie: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

Słowa kluczowe: wczesna predykcja działań, współpraca człowiek-robot, niepewność w SI, modele wizji oparte na transformerach, bezpieczne systemy inteligentne