Clear Sky Science · ru
UncerTrans: трансформер во времени, учитывающий неопределённость, для раннего прогнозирования действий
Почему раннее распознавание действий может сохранить нам безопасность
Представьте домашнего робота, который по первому взмаху запястья определяет, собирается ли человек аккуратно налить горячую воду в кружку или случайно опрокинуть чайник. На производствах, в больницах и умных домах машины всё чаще делят пространство с людьми, и реагировать только после начала инцидента уже слишком поздно. В этой работе представлен UncerTrans — новая система ИИ, которая не только предсказывает, что человек, вероятно, сделает, увидев самый ранний фрагмент действия, но и сообщает, насколько она уверена в своём предположении — навык, жизненно важный, когда на кону человеческая безопасность.

От наблюдения к прогнозированию человеческих действий
Большинство современных систем компьютерного зрения распознают, что делает человек, лишь когда действие почти завершено: они классифицируют полный видеоклип как «режет овощи» или «поднимает кружку». Это полезно для последующего анализа, но не для предотвращения ожогов, столкновений или падений. Раннее прогнозирование действий решает более сложную задачу: определить, какое полное действие последует, увидев только 10–20% его хода. Сложность в том, что многие действия на начальном этапе выглядят похоже — тянущаяся к чайнику рука может означать как наливание напитка, так и случайное опрокидывание — поэтому система должна работать с очень ограниченной информацией и всё же избегать опасных ошибок.
Как научить машину фокусироваться на важных моментах
UncerTrans решает эту задачу с помощью временного трансформера — современной архитектуры нейросетей, изначально разработанной для языка. Вместо чтения слов в предложении модель анализирует короткие фрагменты видео во времени. Она разбивает раннюю последовательность действий на несколько сегментов и использует механизм внимания, чтобы определить, какие моменты важнее всего. Свежим кадрам придаётся больший вес, что соответствует нашей интуиции: последние движения обычно лучше раскрывают намерение. Такая конструкция позволяет системе улавливать как тонкие детали, например движение пальцев, так и более широкие паттерны, такие как траектория руки, даже когда видна лишь часть полного действия.
Заставить машину признавать свою неуверенность
Ключевая новация UncerTrans в том, что система не ограничивается одним жёстким ответом. Вместо этого один и тот же вход прогоняется через сеть многократно с небольшими вариациями с использованием приёма, называемого Монте-Карло dropout. Каждый прогон случайно «отключает» разные внутренние соединения, давая слегка отличающиеся предсказания. По степени расхождения этих предсказаний система оценивает собственную неопределённость: тесно сгруппированные прогнозы сигнализируют о высокой уверенности, а рассеянные — о сомнениях. UncerTrans дополнительно разделяет неопределённость, вызванную ограниченным объёмом обучения, и неопределённость, вызванную шумом в видео, и динамически регулирует число тестовых прогонов — больше, если первые пробы выглядят неоднозначно, и меньше, если они уже согласованы.

Преобразование уверенности в более безопасные решения
Знать, когда ты можешь ошибиться, полезно лишь в том случае, если это меняет поведение. UncerTrans переводит оценки уверенности в практические действия. Для прогнозов с низкой неопределённостью система может действовать решительно — например выдать предупреждение или отвести роботизированную руку в безопасную зону. При умеренной неопределённости она выбирает более консервативное поведение, такое как замедление робота или запрос дополнительных данных. Если неопределённость крайне велика, система может отказаться от решения и продолжать наблюдение. Испытания на большой базе «перволичного» видео из кухни показывают, что UncerTrans предсказывает предстоящие действия точнее нескольких сильных альтернатив, особенно когда видно лишь первые 10% действия. Примечательно, что при отбрасывании лишь 30% наиболее неопределённых случаев точность оставшихся прогнозов возрастает примерно до 84%, что демонстрирует реальную пользу фильтрации, учитывающей неопределённость.
Что это значит для повседневной работы человека и робота
Для неспециалиста посыл прост: UncerTrans — шаг к машинам, которые не только догадываются о нашем следующем действии по ограниченным подсказкам, но и понимают, когда этим догадкам можно доверять. Сочетание чувствительной ко времени визуальной модели с внутренним «индикатором уверенности» позволяет системе реагировать быстрее и безопаснее в загромождённых реальных условиях — кухнях, цехах и медицинских учреждениях. Хотя метод требует вычислительных ресурсов и нуждается в дальнейшем совершенствовании, он предлагает перспективный шаблон для будущих роботов и систем наблюдения, которые заранее выявляют опасности, действуют осторожно при неуверенности и в конечном счёте безопаснее интегрируются в человеческое пространство.
Цитирование: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4
Ключевые слова: раннее прогнозирование действий, взаимодействие человека и робота, неопределённость в ИИ, визуальные модели-трансформеры, безопасные интеллектуальные системы