Clear Sky Science · he

Multi-TPC: מאגר מולטימודלי לשיחות בשלושה משתתפים הכולל דיבור, תנועה ומבט

2026-02-12 · חזרה לאינדקס

מדוע האופן שבו אנו נעים ומביטים בזמן דיבור חשוב

כשאנשים מדברים פנים-אל-פנים, הם עושים הרבה יותר מחליפת מילים. אנו נוטים קדימה, מהנהנים, מביטים זה בזה ועוצרים בדיוק בנקודות הנכונות. תנועות עדינות אלה חשובות אף יותר כאשר שלושה אנשים מדברים יחד, שכן תשומת הלב ותורות הדיבור משתנות כל הזמן. ועדיין, עד היום למדענים ומהנדסים היה מעט מאוד נתונים באיכות גבוהה שמראים כיצד דיבור, תנועת גוף ומבט פועלים יחד בשיחות בקבוצות קטנות. מאמר זה מציג מאגר חדש שנועד למלא את הפער הזה ולעזור לבנות עוזרים וירטואליים, רובוטים חברתיים וכלים למחקר של אינטראקציות יומיומיות באופן טבעי יותר.

חלון חדש לשיחות בין שלושה אנשים

המחברים מציגים את Multi-TPC, אוסף ציבורי של שיחות בין שלושה אנשים שהוקלטו במעבדה באמצעות לכידת תנועה, עוקבי עיניים ומיקרופונים נפרדים. בשונה מרבים מהמשאבים הקודמים שהתמקדו בדובר יחיד או בשיחה בין שני אנשים בלבד, Multi-TPC תופס שיחות ספונטניות בין שלושה זרים שעומדים במשולש ומדברים על כל נושא שיבחרו. המאגר כולל מעל 5.3 שעות הקלטה מ-21 משתתפים צעירים, מחולקות ל-24 מפגשים. בכל רגע בשיחות אלה, המאגר מספק מידע מפורט על האופן שבו כל אדם מדבר, זז והיכן מכוון מבטו.

כיצד הוקלטו השיחות

כדי לבנות את המאגר, הצוות יצר הגדרת הקלטה היברידית. כל משתתף לבש חליפת לכידת תנועה לכל הגוף המשובצת בסמנים משתקפים כך שמערך של שמונה מצלמות יכלו לעקוב אחר היציבה, תנועת הראש והמחוות בתלת־ממד. משקפי עוקב מבט קלים, שדומים במרקם למשקפי יום-יום, מדדו היכן כל אדם מביט בשדה הראייה שלו. מיקרופונים אלחוטיים שהוצמדו ליד הצוואר הקליטו את קולו של כל דובר במסלול שמע נפרד. לפני ההקלטה, בוצעה כיול של המשתתפים במערכת והורו להם להישאר בנקודות קבועות היוצרות משולש שווה-צלעות במרחק של כ-מטר אחד זו מזו. לוח טריקסטה (clapboard), הנראה לעיניים המצלמות, לעוקבי המבט ולמיקרופונים, סיפק אות מדויק לארגון כל המכשירים בזמן, והבטיח שניתן יהיה להתאים בין תנועה, מבט ודיבור מסגרת-אחר-מסגרת.

ניקוי, ארגון והעשרת הנתונים

איסוף האותות הגולמיים היה רק השלב הראשון. החוקרים עיבדו בקפידה את נתוני התנועה, תויגו את כל הסמנים ומילאו פערים קטנים באמצעות אינטרפולציה מתמטית תוך בדיקה רוחבית של מיקומי סמנים סמוכים. הקלטות השמע עובדו עם שיטות להפחתת רעש ולאחר מכן הוזנו לתוכנת זיהוי דיבור ליצירת תמלולים מילה-אחר-מילה, שתוקנו ידנית לאחר מכן. נקודות המבט שנמדדו בפיקסלים של המצלמה הומרו לזוויות תלת־ממדיות המראות היכן כל אדם מביט במרחב. כל האותות הורדו לדגימה של 60 פריימים לשנייה וסונכרנו, ואז אוחסנו בפורמטים פשוטים ופתוחים. המאגר הסופי מאורגן לפי מודליות — תנועה, מבט, שמע, מילים ותכונות פרוזודיות כגון עוצמה וגובה צליל — עם כללי שם קבצים ברורים כך שחוקרים יוכלו לעקוב בקלות אחרי כל רגע בזמן עבור כל שלושת המשתתפים.

מה המאגר חושף על דיבור קבוצתי

באמצעות Multi-TPC, המחברים ביצעו סקר סטטיסטי ראשוני של האופן שבו שיחות בין שלושה אנשים מתפתחות. הם מדדו תורות דיבור ושקטים, וגילו שתורת דיבור טיפוסית נמשכת כ-2.7 שניות, מופרדת על ידי הפסקות של קצת יותר משנייה. כמו כן בחנו הנהנות והנערות ראש כצורת משוב של המאזין, וזיהו בקירוב רבע הנהנה או נערה לשנייה בממוצע — עדות לכך שמאזינים מסמנים תשומת לב ועמדה ללא מילים. ניתוח מבט הראה שאנשים לעיתים נדירות מתמקדים ישירות בפנים של האחר למשך זמן רב. במקום זאת, הם לעתים קרובות מביטים מעט הצידה, ודפוסי המבט שלהם משתנים בהתאם למי מדבר, האם יש הפסקה או האם יותר מאדם אחד מדבר בו-זמנית. במהלך דיבור חופף, מבטי המשתתפים מתפזרים באופן שווה יותר או נוטים להתרחק משני השותפים, מה שמעיד על אי־ודאות לגבי מי מחזיק בהרצאה בשיחה.

מדוע המשאב הזה חשוב לטכנולוגיה העתידית

על ידי אריזה של כל שכבות המידע הללו למאגר מתועד היטב וניתן לשיתוף, Multi-TPC מציע בסיס חדש לחקר האופן שבו קבוצות קטנות מנהלות חלוקת תורות, תשומת לב ומשוב דרך מילים ותנועה. לקורא היומיומי, המסקנה היא שריקוד השיחה — מי מדבר מתי, מי מסתכל לאיפה וכיצד הנהנות העדינות מעצבות את הזרימה — כעת נתפס בפירוט עדין. למדענים ומפתחים, הדבר פותח דלת לבניית דמויות וירטואליות ורובוטים חברתיים שמגיבים יותר כמו בני אדם בסיטואציות קבוצתיות, וכן לחקירות מעמיקות יותר של האופן שבו אנו מתיאמים זה עם זה דרך קול, גוף ומבט.

ציטוט: Lee, MC., Deng, Z. Multi-TPC: A Multimodal Dataset for Three-Party Conversations with Speech, Motion, and Gaze. Sci Data 13, 429 (2026). https://doi.org/10.1038/s41597-026-06819-x

מילות מפתח: שיחה מולטימודלית, מחווה ומבט, מאגר נתונים של אינטראקציה חברתית, חלוקת תורות דיבור, סוכנים וירטואליים