Clear Sky Science · he
מאגר GaMMA של שיחות פוליאדיות בדנית עם נתוני מבט, דיבור ותנועה ברעש ובשקט
למה שיחות מרעישות חשובות
אם ניסיתם פעם לשוחח עם חברים בבית קפה הומה, ודאי חוויתם כמה קשה לעקוב אחרי חוט השיחה. ועדיין, רוב מה שמדענים יודעים על דיבור ושמיעה מגיע מניסויים במעבדה מסודרים עם דובר אחד בכל פעם. מאמר זה מציג את מאגר GaMMA, אוסף גדול וזמין בחופשיות של שיחות קבוצתיות בסגנון חיים אמיתי בדנית, שהוקלטו עם מדידות מדויקות של מה שאנשים אומרים, לאן הם מביטים, כיצד הם מזיזים את ראשיהם ועד כמה חזק הרעש הסביבתי. הוא תוכנן כשטח משחק לחוקרים שרוצים לבנות מסמכי שמיעה טובים יותר, מכשירי תקשורת חכמים יותר ומודלים ריאליסטיים יותר של איך אנחנו מדברים ברעש יום־יומי.

לדבר במסיבת קוקטייל
החוקרים מתמקדים בשיחות "פוליאדיות"—ארבעה אנשים משוחחים יחד, לוקחים תורות, מפריעים, צוחקים ולפעמים מדברים על גבי זה. מצבים אלה הם מבחן טבעי ל"בעיית מסיבת הקוקטייל" הקלאסית: איך מאזינים מצליחים להתמקד בקול אחד מתוך רבים ונגד רקע רעש. מאגרי נתונים קיימים תופסים היבטים מסוימים של האתגר הזה, אך הם לעתים מסתמכים על מטלות כתובות, רמות רעש קבועות או משתתפים שלא מכירים זה את זה. GaMMA נבנה כך שירגיש קרוב יותר לחיים האמיתיים: כל 44 המשתתפים היו דוברי דנית ילידים שבאו לדבר עם חברים או בני משפחה, ללא נושאים או תפקידים מוקצים, ועם רעש רקע שנע מרחש חדר שקט ועד רעש דמוי מסעדה תוססת ובמצב שבו עוצמת הרעש עלתה וירדה לאט.
לראות, לשמוע ולהזיז יחד
כדי ללכוד את התערובת העשירה של האותות שמשפיעים על שיחה פנים־אל־פנים, כל אדם חבש שלושה סוגי ציוד: משקפי מעקב עיניים קלות כדי להקליט לאן הביט, מיקרופונים זעירים בתוך האוזן כדי לקלוט מה הגיע לאוזנם ומיקרופון קטן על הראש ליד הפה כדי להקליט את הדיבור שלהם בבירור. שמונה מצלמות אינפרא־אדום בחדר עקבו אחרי סימנים על המשקפיים כדי שהצוות יוכל לשחזר את מיקום וכיוון ראש כל דובר ב־3D. ארבעה רמקולים שמוקמו סביב השולחן השמיעו את רעש הרקע ברמות מבוקרות בקפדנות, ואקוסטיקת החדר נמדדה כך שמשתמשים עתידיים במאגר ידעו בדיוק איך הקול התנהג בחלל.
לעשות הקלטות שעדיין מרגישות טבעיות
מטרה עיצובית מרכזית הייתה לא לשנות את אופן הדיבור וההאזנה של המשתתפים. מיקרופוני בת־אוזן סטנדרטיים יכולים לחסום את תעלת האוזן ולשנות בעדינות איך אנו שומעים את קולנו, מה שעשוי לשנות את סגנון הדיבור. לכן הצוות שינה מיקרופונים מסחריים של מכשירי שמיעה כך שישבו בתוך האוזן עם חסימה מינימלית. הם השתמשו בראש בובת בדיקה וציוד בדיקה מדויק כדי למדוד כמה המיקרופונים הללו משנים את הקול בתעלת האוזן ועיצבו מסננים כך שהאודיו המאוחסן יתאים מקרוב למה שיגיע לעור התוף האמיתי. הם גם כיולו את המיקרופונים המותקנים על הראש כך שרמות הדיבור יהיו ברי השוואה בין המשתתפים. תשובות שאלונים שנאספו לאחר המפגשים מרמזות שעל אף הציוד וסביבת המעבדה, אנשים בדרך כלל חשו שהשיחות שלהם היו טבעיות ושההתקנה לא הייתה פולשנית מדי.

לנקות את הכאוס
הקלטות גולמיות מסצנות עמוסות כאלה הן בלגן: המיקרופונים קוטפים רעש חדר, זמזום מכונה וקולות של כמה אנשים בו‑זמנית. כדי להפוך את המאגר לשימושי יותר, המחברים מספקים גרסאות גם לא מעובדות וגם "מעושרות" של האודיו. אלגוריתם למידה עמוקה מודרני מפחית את רעש הרקע, ושיטת סינון אדפטיבית מדכאת דליפת קולות של דוברים אחרים לתוך המיקרופון של כל אדם. גלאי פעילות דיבור מסמן אז מתי כל משתתף מדבר. הצוות בדק בצורה שיטתית כיצד שלבי העיבוד האלה השפיעו על איכות האות בתנאים שונים—כמו כשהחובש מדבר בלבד, כאשר רק האחרים מדברים או כאשר כמה אנשים חופפים בדיבור—ומצא שניתן להפחית רעש במידה ניכרת מבלי לפגום בצורה בולטת בקול הראשי.
ערכת כלים לחקר שיחות אמיתיות
כל הנתונים מסונכרנים בזמן ככל שהחומרה מאפשרת ומופצים בפורמטים סטנדרטיים, יחד עם קבצי כיול ותיעוד על מגבלות ידועות כמו תזוזת שעון זעירה ופערים מדי פעם במעקב העיניים. התוצאה היא יותר מתשע שעות של שיחות ארבע‑איש, כל אחת הוקלטה בארבע רמות רעש שונות, עם דיבור, מבט ותנועה מסונכרנים. עבור מדענים ומהנדסים, GaMMA מציע הזדמנות נדירה לחקור כיצד אנשים מזיזים את המבט, מתאימים את הדיבור ומתזמנים חילופי תורות בהקשרים חברתיים אמיתיים. עבור הקוראים הכלליים, המסקנה היא שלהבין ולשפר תקשורת במקומות רועשים דורש אימוץ המורכבות המלאה של הדרך שבה אנו מדברים, מקשיבים, מביטים ונעים יחד—ומאגר זה מהווה צעד משמעותי לכיוון המטרה הזו.
ציטוט: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x
מילות מפתח: אפקט מסיבת הקוקטייל, שיחה רב־מודאלית, דיבור ברעש, מעקב מבט, מערך נתוני מחקר שמיעה