Clear Sky Science · ru

Иерархическое решение NBV на основе взаимной информации для активного семантического визуального SLAM в динамических средах

2026-01-20 · Назад к списку

Роботы, которые умеют думать наперед

По мере того как роботы покидают заводы и появляются в домах, больницах и офисах, им приходится передвигаться в среде, заполненной людьми и другими движущимися объектами. В этой статье представлен новый способ, позволяющий роботу «думать наперед» о том, куда смотреть и как двигаться, чтобы построить надежную карту окружения — даже когда окружающее пространство не хочет оставаться неподвижным. Эта работа важна для всех, кто интересуется более безопасными сервисными роботами, умными доставщиками или будущими домашними помощниками, которым предстоит делить пространство с людьми, а не пустыми коридорами.

Почему движущиеся люди сбивают роботов с толку

Чтобы самостоятельно ориентироваться, многие роботы используют метод визуального SLAM, при котором камера помогает одновременно строить карту и оценивать положение робота. Это хорошо работает в статичных условиях, но быстро дает сбой, когда мимо проходят люди, закрывают обзор или несут предметы. Одно из распространенных решений — использовать «семантическое» зрение, чтобы робот мог распознавать людей, машины и стулья и просто игнорировать их при построении карты. Однако это порождает новую проблему для активных роботов, которые выбирают собственный маршрут: если они отбрасывают слишком много визуальной информации, они могут потерять ориентирование совсем. Узкое поле зрения камеры усугубляет проблему, потому что один человек, проходящий близко, способен закрыть большую часть полезной сцены из виду робота.

Двухуровневая стратегия выбора следующего взгляда

Авторы предлагают иерархическую систему принятия решений, которая помогает роботу более осознанно выбирать следующие точки обзора. На старшем уровне робот поддерживает карту сверху в виде сетки свободных, занятых и неизвестных областей. Он оценивает возможные удаленные точки обзора, измеряя, насколько каждая из них снизит неопределенность на этой карте — понятие, заимствованное из теории информации. Робот предпочитает места, открывающие большие не изученные области, одновременно учитывая, насколько далеко ему придется ехать и насколько нужно повернуть камеру. Как только выбран многообещающий район, нижний уровень системы берет на себя уточнение того, как именно робот должен двигаться и ориентироваться в этой окрестности, чтобы с узким полем зрения камеры получить достаточно полезных деталей.

Видеть то, что стабильно, и избегать того, что нет

В основе локального процесса принятия решений лежит «карта вероятностей признаков», строящаяся из каждого кадра камеры. Сначала система обнаруживает визуальные ориентиры — углы и шаблоны в сцене — которые, вероятно, останутся стабильными во времени и полезны для отслеживания движения. Затем она использует современный детектор объектов, чтобы найти потенциально движущиеся объекты, например людей, и отслеживает их по кадрам. Анализируя, как эти объекты перемещаются, система оценивает не только их текущее положение, но и то, где они, вероятно, окажутся в ближайшем будущем. Эти два источника информации объединяются в тепловую карту по изображению: яркие области указывают на высокую вероятность увидеть надежные ориентиры, тогда как более темные области отмечают места с малым количеством признаков или те, которые, вероятно, будут закрыты движущимися объектами. Робот использует эту карту, чтобы судить, какое небольшое движение — повернуть влево, вправо или двинуться вперед — даст ему следующий наиболее чистый и стабильный вид.

Тестирование в виртуальных мирах и реальной среде

Исследователи протестировали свой подход в двух симулированных внутренних помещениях различного размера и сложности, каждое населено блуждающими виртуальными пешеходами, а затем на физическом роботе, ездившем по реальной внутренней среде. Они сравнили свой метод с несколькими устоявшимися стратегиями исследования, которые в основном нацелены на покрытие пространства или сокращение пути. В симуляциях новая система давала карты с меньшими искажениями и обеспечивала лучшую точность позиционирования при примерно таком же или меньшем времени исследования. Она также реже теряла отслеживание своего положения и с меньшей вероятностью подходила слишком близко к движущимся людям. В реальном эксперименте метод работал в реальном времени на стандартном компьютере робота, подтвердив, что он практичен для внедрения вне лаборатории.

Что это означает для повседневных роботов

Проще говоря, эта работа учит робота разборчиво относиться к тому, куда смотреть и куда идти, когда вокруг находятся люди. Объединяя понимание сцены, прогнозирование движения и меру прироста информации, робот может направляться к видам, которые одновременно информативны и безопасны, вместо того чтобы просто идти к ближайшему неизведанному углу. Это делает его внутреннюю карту более надежной, а движения — более предсказуемыми, что является ключевыми факторами для роботов, которым предстоит делить густонаселенные пространства с людьми. Некоторые задачи остаются — например, внезапные большие толпы, закрывающие камеру, — но этот подход является шагом к домашним и сервисным роботам, которые смогут элегантно справляться с беспорядочной, динамичной природой реальной жизни.

Цитирование: Yang, Z., Sang, A.W.Y., Muthugala, M.A.V.J. et al. Mutual information-based hierarchical NBV decision for active semantic visual SLAM under dynamic environments. Sci Rep 16, 5847 (2026). https://doi.org/10.1038/s41598-026-36259-x

Ключевые слова: активный SLAM, навигация робота, динамические среды, семантическое картирование, следующий лучший вид