Clear Sky Science · he

שיפור Whisper בעזרת LoRA לזיהוי דיבור חסכוני במשאבים בסביבה הליאוקסית

· חזרה לאינדקס

מדוע קולות מתחת למים נשמעים מוזרים

כאשר צוללים חיים ועובדים בעומק מתחת לפני הים, הם לעתים נשמים תערובת הליום וחמצן במקום אוויר רגיל. זה שומר עליהם בטוחים, אך גורם לקולם להישמע כמו דמויות מצוירות — גבוה, נחירי וקשה להבנה. בעולם הצפוף והמסוכן של צלילת סתורציה, שבו אנשים מבלים ימים או שבועות בתאים מחוזקים בלחץ, כל אי-הבנה באינטרקום עלולה לסכן גם את הבטיחות וגם את הצלחת המשימה. המחקר הזה מטפל בשאלה פשוטה אך חשובה: כיצד לגרום למחשבים להבין במדויק את קולות ההליום המוזרים האלה כדי לשמור על תקשורת ברורה ואמינה?

Figure 1
Figure 1.

האתגר של דיבור מתחת למים

צלילת סתורציה בעומק משמשת למשימות כמו בנייה תת-מימית, הצלה וחיפוש משאבים. הצוללים חיים בתאים מתכתיים שמותאמים ללחץ של המקום שבו הם עובדים ונושמים תערובת הליום–חמצן הידועה כהליאוקס. הצפיפות הנמוכה של ההליום משנה את אופן מעבר הקול בדרכי הקול: הדיבור נעשה צרוד וגבוה, הרזוננס מזוזר ועיצורים מטושטשים, וצליל הרקע הקבוע של מאווררי האוורור מוסיף רעש כבד. מערכות זיהוי הדיבור הסטנדרטיות, המאומנות על קולות יומיומיים באוויר, מפשלות בהקשר זה. הן שומעות מילים בצורה שגויה, מתקשות במונחים טכניים ולעיתים קרובות נכשלים כשהתנאים האקוסטיים קיצוניים במיוחד.

בניית מאגר קולות מציאותי לצלילה עמוקה

כדי ללמוד את הבעיה באופן עולמי, החוקרים הקליטו דיבור של צוללים בתוך מערכת סתורציה אמיתית המותקנת על ספינה. הם תיעדו קול בשני תנאי עבודה: המקבילים ל־12 מטר ול־25 מטר מתחת למים, בכל אחד מהם ברמות הליום וחמצן מבוקרות בקפידה. המיקרופונים הוצמדים לאינטרקום של התא, ושמרו על רעש רקע והד אמיתיים. מאחר שהקלטה בתנאים אלה קשה ויקרה, כל צולל תרם רק כמה דקות של דיבור גולמי. כדי לתת למודל מחשב מספיק חומר ללמוד ממנו, הצוות הגדיל את נתוני האימון בעשרה מונים באמצעות טריקים פשוטים: שינוי קצב הדיבור על־ידי מתיחה ודחיסה, חיתוך ושחזור מקטעים, וערבוב ברעשי קרקעית בגדלים שונים. באופן מכריע, צוללים שונים שימשו לאימון ולמבחן כדי שהתוצאות ישקפו הכללה אמיתית ולא זכירה.

ללמד בינה מלאכותית להסתגל בלי להתחיל מאפס

במקום לבנות מערכת חדשה מאפס, המחברים התחילו עם Whisper, מודל זיהוי דיבור רב-לשוני גדול בקוד פתוח שאומן על כמויות עצומות של אודיו. שימוש ישיר במודל הזה על דיבור הליאוקסי הוביל לשיעורי שגיאה מאוד גבוהים, מה שממחיש עד כמה קולות הליום שונים מהדיבור הרגיל. אימון מחדש מלא של Whisper על נתוני הליאוקס המיוחדים היה מבוזבז ויקר, ולכן הצוות פנה לטכניקה שנקראת התאמה במדרג נמוך (LoRA). בפשטות, LoRA מוסיפה "שכבת צד" קטנה מאוד לחלקים מרכזיים של המודל תוך קיבוע הרשת המקורית. רק קבוצה זעירה זו של פרמטרים נוספת מותאמת על ההקלטות התת־מימיות המיוחדות, מה שמקטין את מאמץ האימון לכ־חצי אחוז מהמודל המלא תוך שמירה על הידע הלשוני הרחב שלו.

Figure 2
Figure 2.

האזנה חכמה בזמן הפענוח

על גבי המודל המותאם הוסיפו החוקרים כמה טריקים קלים המשמשים רק בעת שהמערכת מאזינה וכותבת את מה שהיא שומעת. מודול אחד מעודד בעדינות את המערכת להעדיף מילים טכניות חשובות — כגון שמות ציוד — כשיש רמז שהן עשויות להופיע. מודול אחר מריץ את האודיו במהירויות מעט שונות ומשווה בין הטרנסקריפטים המתקבלים, מה שעוזר להחליק תנודות בקצב הדיבור. מודל שפה פשוט מסדר מחדש את כל הטרנסקריפציות המועמדות לפי דירוג מחודש, שוקל עד כמה הן מתאימות לקולות, עד כמה מילים חמות מופיעות וכמה טבעי הרצף התוויי במנדרינית. לשיחות ארוכות המערכת גם מזינה את הפלט האחרון שלה חזרה כפרומפט למקטע הבא, כדי לשמור על המשכיות נושאית ולהימנע מפירוק משפטים בנקודות לא נוחות.

מה משמעות התוצאות לבטיחות הצוללים

מבחנים על ההקלטות של 12 מטר ו־25 מטר מראים שהשיטה הזו משפרת באופן דרמטי את זיהוי דיבור ההליום. מודל Whisper המוכן מהמדף זיהה באופן שגוי חלק גדול מהתווים, אך הגרסה המותאמת ב־LoRA הקטינה את השגיאות כמעט בסדר גודל — בזמן שאימנה רק פרומיל קטן מהפרמטרים ושמרה על ריצת עבודה מעשית על שרתים סטנדרטיים. שלבי הפענוח הנוספים — ובמיוחד דירוג מחודש מבוסס שפה — הצמצמו עוד יותר טעויות עם עיכוב מועט, אם כי תחבולות אגרסיביות יותר כמו הרחבות בזמן מבחן היו מועילות בעיקר כאשר הלייצנציה הייתה פחות קריטית. העבודה מראה כי עם התאמה חכמה ופיענוח חכם, מודלים גדולים קיימים לזיהוי דיבור יכולים להפוך ל"אוזניים" מדויקות וחסכוניות למשאבים עבור צוללים בסביבות תת־מימיות עוינות, ולהקל על הצוותים מעל ומתחת לפני המים להבין זה את זה ברגעים שחשובים באמת.

ציטוט: Mao, W., Gu, H., He, J. et al. LoRA-enhanced whisper for resource-efficient heliox speech recognition. Sci Rep 16, 14080 (2026). https://doi.org/10.1038/s41598-026-38201-7

מילות מפתח: דיבור תת-מימי, קול הליום, זיהוי דיבור, צלילה בסתורציה, התאמת LoRA