Clear Sky Science · ru

Multi-TPC: Мультимодальный набор данных для трехсторонних разговоров со сведениями о речи, движениях и взгляде

2026-02-12 · Назад к списку

Почему то, как мы движемся и смотрим во время разговора, имеет значение

Когда люди общаются лицом к лицу, они делают гораздо больше, чем просто обмениваются словами. Мы наклоняемся вперед, киваем, бросаем взгляды друг на друга и делаем паузы в нужных местах. Эти тонкие движения становятся еще важнее, когда говорят трое — внимание и очередность выступлений постоянно меняются. Тем не менее до сих пор у ученых и инженеров почти не было качественных данных, показывающих, как речь, движения тела и направленность взгляда взаимодействуют в маленьких группах. В этой статье представлен новый набор данных, призванный заполнить этот пробел и помочь создавать более естественных виртуальных помощников, социальных роботов и инструменты для изучения повседневного человеческого взаимодействия.

Новое окно в трехсторонние разговоры

Авторы представляют Multi-TPC — общедоступную коллекцию трехсторонних разговоров, записанных в лабораторных условиях с использованием системы захвата движений, трекеров взгляда и индивидуальных микрофонов. В отличие от многих ранних ресурсов, сосредоточенных на одном говорящем или на беседах между двумя людьми, Multi-TPC фиксирует спонтанные обсуждения троих незнакомцев, стоящих в треугольнике и говорящих на любую интересующую их тему. Включено более 5,3 часов записей от 21 участника молодого возраста, разбитых на 24 сессии. Для каждого момента этих разговоров набор данных содержит подробную информацию о том, как каждый человек говорит, двигается и куда направляет взгляд.

Как записывали разговоры

Для создания набора данных команда разработала гибридную систему записи. Каждый участник надевал полный костюм захвата движений с отражающими маркерами, чтобы массив из восьми камер мог отслеживать позу, движение головы и жесты в трех измерениях. Легкие очки с трекингом взгляда, по ощущениям похожие на обычные очки, измеряли, куда именно смотрит человек в поле зрения. Беспроводные микрофоны, закрепленные у шеи, записывали голос каждого участника на отдельную аудиодорожку. Перед записью участников калибровали в системе и просили оставаться на фиксированных местах, образующих равносторонний треугольник примерно в одном метре друг от друга. Хлопушка, видимая для камер, трекеров взгляда и микрофонов, обеспечивала точный сигнал для выравнивания всех устройств по времени, что гарантировало возможность сопоставлять движение, взгляд и речь покадрово.

Очистка, организация и обогащение данных

Сбор сырых сигналов был только первым шагом. Исследователи тщательно обработали данные о движениях, промаркировали все маркеры и заполнили небольшие пропуски математической интерполяцией, одновременно сверяя положение соседних маркеров. Аудиозаписи очищали методами снижения шума и затем пропускали через программное обеспечение распознавания речи для получения построчных транскриптов, которые позже корректировались вручную. Точки взгляда, измеренные в пикселях камеры, преобразовали в трехмерные углы, показывающие, куда человек смотрит в пространстве. Все сигналы были понижены до 60 кадров в секунду и синхронизированы, затем сохранены в простых открытых форматах. Итоговый набор данных организован по модальностям — движения, взгляд, аудио, слова и просодические характеристики (такие как громкость и тон) — с четкими правилами именования файлов, чтобы исследователи могли легко отследить любой момент времени у всех трех участников.

Что набор данных показывает о групповом разговоре

Используя Multi-TPC, авторы провели первоначальный статистический обзор того, как разворачиваются трехсторонние беседы. Они измерили очередности говорения и молчания, обнаружив, что типичная очередь разговора длится около 2,7 секунд, разделяемая паузами чуть более одной секунды. Авторы также исследовали покачивания и кивания головы как форму обратной связи слушателя, обнаружив примерно четверть покачивания или кивания в секунду в среднем — свидетельство того, что слушатели постоянно сигнализируют внимание и отношение без слов. Анализ взгляда показал, что люди редко долго фиксируют взгляд непосредственно на чьем-то лице. Вместо этого они часто смотрят немного в сторону, а паттерны взгляда изменяются в зависимости от того, кто говорит, есть ли пауза или говорят ли несколько человек одновременно. Во время перекрывающейся речи взгляд участников становится более равномерно распределенным или отводится от обоих собеседников, что намекает на неуверенность в том, кто контролирует ход разговора.

Почему этот ресурс важен для будущих технологий

Упаковывая все эти уровни информации в хорошо документированный, доступный набор данных, Multi-TPC предлагает новую основу для изучения того, как маленькие группы управляют сменой говорящего, вниманием и обратной связью через слова и движения. Для широкой аудитории главный вывод в том, что «танец» разговора — кто когда говорит, куда смотрят и как тонкие кивки формируют течение беседы — теперь зафиксирован в мельчайших деталях. Для ученых и разработчиков это открывает путь к созданию виртуальных персонажей и социальных роботов, которые реагируют более по-человечески в групповых ситуациях, а также к более глубоким исследованиям того, как мы координируем свои действия друг с другом через голос, тело и взгляд.

Цитирование: Lee, MC., Deng, Z. Multi-TPC: A Multimodal Dataset for Three-Party Conversations with Speech, Motion, and Gaze. Sci Data 13, 429 (2026). https://doi.org/10.1038/s41597-026-06819-x

Ключевые слова: мультимодальное общение, жесты и взгляд, набор данных социальной интеракции, смена говорящего, виртуальные агенты