Clear Sky Science · ar
Multi-TPC: مجموعة بيانات متعددة الوسائط لمحادثات من ثلاثة أطراف تتضمن الكلام والحركة والنظر
لماذا تهم حركاتنا ونظراتنا أثناء الكلام
عندما يتحدث الناس وجهًا لوجه، فإنهم يفعلون أكثر من تبادل الكلمات فقط. نتقدم بجذعنا، ونهز رؤوسنا، ونلقي نظرات متبادلة، ونتوقف في اللحظات المناسبة. تصبح هذه الحركات الدقيقة أكثر أهمية عندما يتحدث ثلاثة أشخاص معًا، حيث تتبدل الانتباه وحظوظ الكلام باستمرار. ومع ذلك، حتى الآن، كان لدى العلماء والمهندسين القليل جدًا من البيانات عالية الجودة التي تُظهر كيف تتكامل الكلام والحركة الجسدية ونظرات العين في محادثات المجموعات الصغيرة. تقدم هذه الورقة مجموعة بيانات جديدة صُممت لسد هذه الفجوة والمساعدة في بناء مساعدين افتراضيين وروبوتات اجتماعية وأدوات لدراسة التفاعل البشري اليومي بشكل أكثر طبيعية.
نافذة جديدة على محادثات الثلاثة أشخاص
يقدم المؤلفون Multi-TPC، مجموعة متاحة علنًا من محادثات بين ثلاثة أشخاص مسجلة في مختبر باستخدام التقاط الحركة، وأجهزة تتبع العين، وميكروفونات فردية. على خلاف العديد من المصادر السابقة التي تركز على متحدث واحد أو على محادثات بين شخصين فقط، تسجل Multi-TPC مناقشات عفوية بين ثلاثة غرباء يقفون في مثلث ويتحدثون عن أي موضوع يختارونه. تتضمن هذه المجموعة أكثر من 5.3 ساعات من التسجيلات لِـ21 مشاركًا من البالغين الشباب، موزعة على 24 جلسة. في كل لحظة من هذه المحادثات، توفر مجموعة البيانات معلومات مفصلة عن كيفية كلام كل شخص، وحركة جسده، ومكان توجيه نظره.

كيف جُمعت المحادثات
لبناء هذه المجموعة، أنشأ الفريق إعداد تسجيل هجيني. ارتدى كل مشارك بذلة التقاط حركة بكامل الجسم مزودة بعلامات عاكسة بحيث يمكن لمصفوفة من ثمانية كاميرات تتبع وضعية جسدهم، وحركة الرأس، والإيماءات في ثلاثة أبعاد. قاست نظارات تتبع العين خفيفة الوزن، تشبه في شعورها النظارات العادية، مكان نظر كل شخص في مجال رؤيته البصري. سجّلت ميكروفونات لاسلكية مُشابكَة قرب الرقبة صوت كل متحدث على مسار صوتي منفصل. قبل التسجيل، تم معايرة المشاركين في النظام وتوجيههم للبقاء في نقاط ثابتة تشكل مثلثًا متساوي الأضلاع على مسافة حوالي متر واحد من بعضهم. قدّمت لوحة التصفيق، المرئية للكاميرات وأجهزة تتبع العين والميكروفونات، إشارة دقيقة لمزامنة جميع الأجهزة زمنيًا، مما يضمن أن الحركة والنظر والكلام يمكن مطابقتها إطارًا بإطار.
تنظيف وتنظيم وإثراء البيانات
لم يكن جمع الإشارات الأولية سوى الخطوة الأولى. عالج الباحثون بيانات الحركة بعناية، ووسموا كل العلامات وملأوا الفجوات الصغيرة باستخدام الاستيفاء الرياضي مع التحقق المتبادل لمواقع العلامات المجاورة. نُقِّيت التسجيلات الصوتية باستخدام طرق تقليل الضوضاء ثم أُدخلت في برنامج للتعرّف على الكلام لإنتاج نصوص كلمة بكلمة، التي تم تصحيحها يدويًا لاحقًا. حوّلت نقاط النظر المقاسة بوحدات بكسل الكاميرا إلى زوايا ثلاثية الأبعاد تُظهر إلى أين ينظر كل شخص في الفضاء. تم خفض عينات جميع الإشارات إلى 60 إطارًا في الثانية ومزامنتها، ثم تخزينها بصيغ بسيطة ومفتوحة. تُنظّم مجموعة البيانات النهائية بحسب الوسائط — الحركة، والنظر، والصوت، والكلمات، والميزات النغمية مثل الشدة والطبقة — مع قواعد واضحة لتسمية الملفات حتى يتمكن الباحثون بسهولة من تتبع أي لحظة زمنية عبر جميع المشاركين الثلاثة.

ما الذي تكشفه مجموعة البيانات عن حديث المجموعات
باستخدام Multi-TPC أجرى المؤلفون استعراضًا إحصائيًا أوليًا لكيفية سير محادثات الثلاثة أشخاص. قاسوا فترات الكلام والصمت، فوجدوا أن فترة الكلام النموذجية تدوم نحو 2.7 ثانية، تفصلها فترات صمت تزيد قليلًا عن ثانية واحدة. كما فحصوا اهتزازات وهزات الرأس كشكل من أشكال تغذية المتلقي الراجعة، مكتشفين نحو رُبع هزة أو إيماءة في الثانية في المتوسط — وهو دليل على أن المستمعين يرسلون إشارات مستمرة عن الانتباه والموقف دون قول كلمة. أظهر تحليل النظر أن الناس نادراً ما يثبتون نظرهم مباشرة على وجه الآخر لفترات طويلة. بدلاً من ذلك، غالبًا ما ينظرون بعض الشيء بعيدًا، وتتحول أنماط نظرهم بحسب المتحدث، وما إذا كان هناك توقف، أو ما إذا كان أكثر من شخص يتحدث في آن واحد. خلال الكلام المتداخل، يصبح توزيع نظرات المشاركين أكثر تساويًا أو ينحرف بعيدًا عن كلا الشريكين، مما يوحي بعدم اليقين بشأن من يملك زمام الحوار.
لماذا تهم هذه الموارد للتقنية المستقبلية
بتجميع كل هذه الطبقات من المعلومات في مجموعة بيانات موثقة جيدًا وقابلة للمشاركة، تقدم Multi-TPC أساسًا جديدًا لدراسة كيفية إدارة المجموعات الصغيرة لتبادل الأدوار والانتباه والتغذية الراجعة عبر الكلمات والحركة معًا. للقارئ العام، الخلاصة هي أن رقصة المحادثة — من يتحدث ومتى، ومن ينظر إلى أين، وكيف تشكّل الإيماءات الخفيفة انسياب الحديث — أصبحت الآن مسجلة بتفاصيل دقيقة. للعلماء والمطورين، يفتح هذا الباب لبناء شخصيات افتراضية وروبوتات اجتماعية تتفاعل بشكل أقرب إلى البشر في مواقف المجموعات، فضلاً عن دراسات أعمق لكيفية تنسيقنا مع بعضنا البعض عبر الصوت والجسد والنظر.
الاستشهاد: Lee, MC., Deng, Z. Multi-TPC: A Multimodal Dataset for Three-Party Conversations with Speech, Motion, and Gaze. Sci Data 13, 429 (2026). https://doi.org/10.1038/s41597-026-06819-x
الكلمات المفتاحية: محادثة متعددة الوسائط, الإيماء والنظر, مجموعة بيانات التفاعل الاجتماعي, تبادل الأدوار في الحديث, وكلاء افتراضيون