Clear Sky Science · ru

UncerTrans: трансформер во времени, учитывающий неопределённость, для раннего прогнозирования действий

· Назад к списку

Почему раннее распознавание действий может сохранить нам безопасность

Представьте домашнего робота, который по первому взмаху запястья определяет, собирается ли человек аккуратно налить горячую воду в кружку или случайно опрокинуть чайник. На производствах, в больницах и умных домах машины всё чаще делят пространство с людьми, и реагировать только после начала инцидента уже слишком поздно. В этой работе представлен UncerTrans — новая система ИИ, которая не только предсказывает, что человек, вероятно, сделает, увидев самый ранний фрагмент действия, но и сообщает, насколько она уверена в своём предположении — навык, жизненно важный, когда на кону человеческая безопасность.

Figure 1
Figure 1.

От наблюдения к прогнозированию человеческих действий

Большинство современных систем компьютерного зрения распознают, что делает человек, лишь когда действие почти завершено: они классифицируют полный видеоклип как «режет овощи» или «поднимает кружку». Это полезно для последующего анализа, но не для предотвращения ожогов, столкновений или падений. Раннее прогнозирование действий решает более сложную задачу: определить, какое полное действие последует, увидев только 10–20% его хода. Сложность в том, что многие действия на начальном этапе выглядят похоже — тянущаяся к чайнику рука может означать как наливание напитка, так и случайное опрокидывание — поэтому система должна работать с очень ограниченной информацией и всё же избегать опасных ошибок.

Как научить машину фокусироваться на важных моментах

UncerTrans решает эту задачу с помощью временного трансформера — современной архитектуры нейросетей, изначально разработанной для языка. Вместо чтения слов в предложении модель анализирует короткие фрагменты видео во времени. Она разбивает раннюю последовательность действий на несколько сегментов и использует механизм внимания, чтобы определить, какие моменты важнее всего. Свежим кадрам придаётся больший вес, что соответствует нашей интуиции: последние движения обычно лучше раскрывают намерение. Такая конструкция позволяет системе улавливать как тонкие детали, например движение пальцев, так и более широкие паттерны, такие как траектория руки, даже когда видна лишь часть полного действия.

Заставить машину признавать свою неуверенность

Ключевая новация UncerTrans в том, что система не ограничивается одним жёстким ответом. Вместо этого один и тот же вход прогоняется через сеть многократно с небольшими вариациями с использованием приёма, называемого Монте-Карло dropout. Каждый прогон случайно «отключает» разные внутренние соединения, давая слегка отличающиеся предсказания. По степени расхождения этих предсказаний система оценивает собственную неопределённость: тесно сгруппированные прогнозы сигнализируют о высокой уверенности, а рассеянные — о сомнениях. UncerTrans дополнительно разделяет неопределённость, вызванную ограниченным объёмом обучения, и неопределённость, вызванную шумом в видео, и динамически регулирует число тестовых прогонов — больше, если первые пробы выглядят неоднозначно, и меньше, если они уже согласованы.

Figure 2
Figure 2.

Преобразование уверенности в более безопасные решения

Знать, когда ты можешь ошибиться, полезно лишь в том случае, если это меняет поведение. UncerTrans переводит оценки уверенности в практические действия. Для прогнозов с низкой неопределённостью система может действовать решительно — например выдать предупреждение или отвести роботизированную руку в безопасную зону. При умеренной неопределённости она выбирает более консервативное поведение, такое как замедление робота или запрос дополнительных данных. Если неопределённость крайне велика, система может отказаться от решения и продолжать наблюдение. Испытания на большой базе «перволичного» видео из кухни показывают, что UncerTrans предсказывает предстоящие действия точнее нескольких сильных альтернатив, особенно когда видно лишь первые 10% действия. Примечательно, что при отбрасывании лишь 30% наиболее неопределённых случаев точность оставшихся прогнозов возрастает примерно до 84%, что демонстрирует реальную пользу фильтрации, учитывающей неопределённость.

Что это значит для повседневной работы человека и робота

Для неспециалиста посыл прост: UncerTrans — шаг к машинам, которые не только догадываются о нашем следующем действии по ограниченным подсказкам, но и понимают, когда этим догадкам можно доверять. Сочетание чувствительной ко времени визуальной модели с внутренним «индикатором уверенности» позволяет системе реагировать быстрее и безопаснее в загромождённых реальных условиях — кухнях, цехах и медицинских учреждениях. Хотя метод требует вычислительных ресурсов и нуждается в дальнейшем совершенствовании, он предлагает перспективный шаблон для будущих роботов и систем наблюдения, которые заранее выявляют опасности, действуют осторожно при неуверенности и в конечном счёте безопаснее интегрируются в человеческое пространство.

Цитирование: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

Ключевые слова: раннее прогнозирование действий, взаимодействие человека и робота, неопределённость в ИИ, визуальные модели-трансформеры, безопасные интеллектуальные системы