Clear Sky Science · tr

UncerTrans: erken eylem tahmini için belirsizlik-bilinçli zamansal dönüştürücü

· Dizine geri dön

Eylemleri erken görmek neden bizi güvende tutabilir

Bir ev robotunun, sadece bir bilek hareketinin ilk anından, bir kişinin bir fincana sıcak suyu güvenle dökmek üzere mi yoksa kazayla ketliğe çarpıp devirmek üzere mi olduğunu söyleyebildiğini hayal edin. Fabrikalarda, hastanelerde ve akıllı evlerde makineler giderek insanlarla aynı alanı paylaşırken, bir kaza başladıktan sonra tepki vermek çok geç olur. Bu makale, UncerTrans adlı yeni bir YZ sistemini tanıtıyor: bir eylemin çok başındayken bir kişinin ne yapmaya meyilli olduğunu tahmin etmekle kalmıyor, aynı zamanda kendi tahminine ne kadar güvendiğini de söylüyor—insan güvenliğinin söz konusu olduğu durumlarda hayati öneme sahip bir yetenek.

Figure 1
Figure 1.

İzlemekten insan eylemlerini öngörmeye

Mevcut bilgisayarlı görme sistemlerinin çoğu, bir eylemi ancak neredeyse tamamlandıktan sonra tanır: tam bir video klibi “sebze doğrama” veya “bir fincan almak” olarak sınıflandırırlar. Bu, sonraki analizler için faydalıdır ama yanıkları, çarpışmaları veya düşmeleri önlemek için yeterli değildir. Erken eylem tahmini daha zorlu bir sorunla uğraşır: yalnızca eylemin %10–20’sini gördükten sonra hangi tam eylemin geleceğine karar vermek. Zorluk, birçok eylemin başta benzer görünmesidir—bir ketliğe uzanmak içecek doldurmak anlamına gelebilir ya da onu itip devirmek anlamına—dolayısıyla bir sistem az bilgiyle çalışmalı ve yine de tehlikeli hatalardan kaçınabilmelidir.

Bir makineyi doğru anlara odaklanmayı öğretmek

UncerTrans bunu, dil için geliştirilen modern bir sinir ağı mimarisi olan zamansal dönüştürücü (temporal transformer) kullanarak ele alır. Kelimeleri okumak yerine kısa video parçacıklarına zaman içinde bakar. Model, erken eylem dizisini birkaç segmente böler ve hangi anların en önemli olduğuna karar vermek için bir dikkat (attention) mekanizması kullanır. Son çerçevelere ekstra ağırlık verilir; bu, en son hareketin genellikle en açık niyeti ortaya koyduğuna dair sezgimizi yansıtır. Bu tasarım, sistemin yalnızca parmak hareketi gibi ince ayrıntıları değil, kolun izlediği yol gibi daha geniş desenleri de, tüm eylemin yalnızca bir kesirini gördüğünde bile yakalamasına olanak tanır.

Bir makinenin emin olmadığını söylemesini sağlamak

UncerTrans’ın temel yeniliği tek bir kesin cevapla yetinmemesidir. Bunun yerine aynı girişi ağa birçok kez, Monte Carlo dropout adı verilen bir teknikle biraz farklı çalıştırır. Her yinelemede farklı iç bağlantılar rastgele devre dışı bırakılır ve böylece hafifçe farklı bir tahmin üretilir. Bu tahminlerin ne kadar uyuşmadığına bakarak sistem kendi belirsizliğini tahmin edebilir: sıkı kümelenmiş tahminler yüksek güveni, dağınık tahminler ise şüpheyi işaret eder. UncerTrans ayrıca sınırlı eğitim deneyiminden kaynaklanan belirsizliği video kaynaklı gürültüden ayırır ve testte kaç yineleme yapılacağını dinamik olarak ayarlar—ilk örnekler belirsiz görünüyorsa daha fazlasını, zaten uyumluysa daha azını kullanır.

Figure 2
Figure 2.

Güveni daha güvenli kararlara dönüştürmek

Nerede yanılabileceğini bilmek yalnızca davranışınızı değiştiriyorsa faydalıdır. UncerTrans güven tahminlerini pratik tercihlere dönüştürür. Düşük belirsizliğe sahip tahminler için sistem kararlı davranabilir—örneğin bir uyarı tetiklemek veya bir robot kolu tehlikeli bölgeden uzaklaştırmak gibi. Belirsizlik orta düzeydeyse, robotu yavaşlatmak veya daha fazla bilgi istemek gibi daha temkinli davranışlar seçebilir. Belirsizlik çok yüksekse, hiç karar vermeyi reddedip izlemeye devam edebilir. Geniş bir “birinci kişi” mutfak video veri setinde yapılan testler, UncerTrans’ın özellikle bir eylemin yalnızca ilk %10’u görüldüğünde, çeşitli güçlü alternatiflerden daha doğru şekilde gelecek eylemleri tahmin ettiğini gösteriyor. Önemli olarak, sadece en belirsiz %30’luk vakayı elerse, kalan tahminlerin doğruluğu yaklaşık %84’e yükseliyor; bu da belirsizlik-bilinçli filtrelemenin gerçek değerini gösteriyor.

Günlük insan–robot ekip çalışması için anlamı

Uzman olmayan biri için mesaj basit: UncerTrans, sınırlı ipuçlarından bir sonraki hareketimizi tahmin etmekle kalmayıp bu tahminlerin ne kadar güvenilir olduğunu da bilen makineler yolunda bir adımdır. Zaman duyarlı bir görsel modelle içsel bir “güven ölçeri” birleştirerek sistem, mutfaklar, fabrikalar ve bakım tesisleri gibi karmaşık, gerçek dünya ortamlarında daha hızlı ve daha güvenli tepki verebilir. Yöntem hala hesaplama maliyetleri taşıyor ve daha fazla iyileştirme gerektirecek olsa da, tehlikeleri erken tahmin eden, belirsiz olduğunda temkinli davranan ve nihayetinde insan alanlarına daha güvenli şekilde uyum sağlayan geleceğin robotları ve izleme sistemleri için umut verici bir taslak sunuyor.

Atıf: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

Anahtar kelimeler: erken eylem tahmini, insan-robot işbirliği, YZ'de belirsizlik, dönüştürücü görsel modeller, güvenli zeki sistemler