Clear Sky Science · ru
Корпус GaMMA: датские полиадические разговоры с данными о взгляде, речи и движении в тишине и шуме
Почему шумные разговоры важны
Если вам приходилось общаться с друзьями в шумном кафе, вы знаете, как трудно бывает уследить за ходом беседы. Тем не менее большая часть того, что учёные знают о речи и слухе, по-прежнему основана на аккуратных лабораторных экспериментах с одним говорящим за раз. В этой статье представлен корпус GaMMA — большой, свободно доступный набор групповых разговоров на датском языке в реалистичном стиле, записанных с тонкой фиксацией того, что люди говорят, куда они смотрят, как двигают головой и насколько громок окружающий гул. Он задуман как поле испытаний для исследователей, желающих создавать лучшие слуховые аппараты, более умные средства коммуникации и реалистичные модели того, как мы говорим в повседневном шуме.

Разговоры на «коктейльной вечеринке»
Исследователи сосредоточились на «полиадических» разговорах — четырёх людях, беседующих вместе, по очереди вступающих в разговор, прерывающих друг друга, смеющихся и иногда говорящих одновременно. Такие ситуации естественны для классической «проблемы коктейльной вечеринки»: как слушатели умудряются сосредоточиться на одном голосе среди множества других и на фоне шумной среды. Существующие наборы данных отражают некоторые аспекты этой задачи, но часто опираются на постановочные задания, фиксированные уровни шума или участников, которые не знакомы друг с другом. GaMMA создан так, чтобы быть ближе к реальной жизни: все 44 участника были носителями датского языка и разговаривали с друзьями или членами семьи, без назначенных тем или ролей, а фоновый шум варьировался от тихого гудения комнаты до оживлённого ресторанного шума и условий, где уровень шума медленно поднимался и опускался.
Видеть, слышать и двигаться вместе
Чтобы зафиксировать богатую смесь сигналов, формирующих личное общение, каждый участник надевал три типа оборудования: лёгкие очки для трекинга взгляда, чтобы записывать, куда он смотрит; крошечные внутриушные микрофоны, фиксирующие то, что достигает уха; и небольшой микрофон, надетый на голову близко к рту, чтобы чётко записывать собственную речь. Восьми инфракрасных камер в комнате отслеживали метки на очках, что позволяло реконструировать положение и ориентацию головы говорящего в 3D. Четыре громкоговорителя, расположенные вокруг стола, воспроизводили фоновый шум на тщательно контролируемых уровнях, а акустика комнаты была измерена, чтобы будущие пользователи набора данных точно понимали, как звук вел себя в пространстве.
Записи, остающиеся естественными
Главной целью проектирования было не менять того, как люди говорят и слушают. Стандартные внутриушные микрофоны могут блокировать слуховой канал и слегка искажать то, как мы слышим собственный голос, что может повлиять на стиль речи. Поэтому команда перенастроила коммерческие микрофоны для слуховых аппаратов так, чтобы они располагались в ухе с минимальной блокировкой. Они использовали манекен головы и точное тестовое оборудование, чтобы измерить, насколько эти микрофоны изменяют звук в слуховом канале, и разработали фильтры, чтобы сохраняемая аудиозапись как можно точнее соответствовала тому, что достигло бы реального барабанного перепонка. Также были откалиброваны головные микрофоны, чтобы уровни речи были сопоставимы между участниками. Анкеты, заполненные после сессий, показывают, что несмотря на оборудование и лабораторную обстановку, люди в целом считали свои разговоры естественными и ощущали установку как не чрезмерно навязчивую.

Очистка хаоса
Исходные записи из таких загруженных сцен бывают беспорядочными: микрофоны захватывают шум комнаты, гудение техники и голоса нескольких людей одновременно. Чтобы сделать корпус более полезным, авторы предоставляют как необработанные, так и «очищенные» версии аудио. Современный алгоритм глубокого обучения уменьшает фоновые шумы, а адаптивный метод фильтрации подавляет «протекание» голосов других говорящих в каждом микрофоне. Детектор активности голоса затем помечает моменты, когда говорит каждый участник. Команда систематически проверяла, как эти этапы обработки влияют на качество сигнала в разных условиях — например, когда говорит только носитель микрофона, когда говорят только другие или когда несколько человек перекрываются в речи — и обнаружила, что шум можно заметно уменьшить без заметного искажения основной речи.
Набор инструментов для изучения реальных разговоров
Все данные выровнены по времени настолько точно, насколько позволило оборудование, и распространяются в стандартных форматах вместе с файлами калибровки и документацией о известных ограничениях, таких как небольшое дрейфование часов и случайные пропуски в трекинге взгляда. В результате получилось более девяти часов четырёхчленных разговоров, каждый записан в четырёх различных шумовых режимах, с синхронизированными данными о речи, взгляде и движении. Для учёных и инженеров GaMMA предоставляет редкую возможность исследовать, как люди смещают взгляд, корректируют речь и координируют очередность выступлений в по-настоящему социальных условиях. Для широкого круга читателей вывод таков: понимание и улучшение коммуникации в шумных местах требует принятия всей сложности того, как мы говорим, слушаем, смотрим и двигаемся вместе — и этот набор данных представляет собой важный шаг в этом направлении.
Цитирование: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x
Ключевые слова: эффект коктейльной вечеринки, мультимодальный разговор, речь в шуме, отслеживание взгляда, набор данных для исследований слуха