Clear Sky Science · ar
تنقيح LoRA لنظام Whisper لتحسين التعرف على كلام Heliox بكفاءة مواردية
لماذا تبدو الأصوات تحت الماء غريبة
عندما يعيش الغواصون ويعملون في أعماق البحر، غالبًا ما يتنفسون خليطًا من الهيليوم والأكسجين بدلاً من الهواء العادي. هذا يحافظ على سلامتهم، لكنه يجعل أصواتهم تبدو كأنها شخصيات كرتونية—عالية، أنفية، وصعبة الفهم. في عالم الغوص المُشبع الضيق والمخاطِر، حيث يقضي الأشخاص أيامًا أو أسابيع في حجرات مضغوطة، أي سوء فهم عبر جهاز الاتصال الداخلي قد يهدد السلامة ونجاح المهمة. تتناول هذه الدراسة سؤالًا بسيطًا لكنه حيوي: كيف نجعل الحواسيب تفهم بدقة هذه الأصوات الغريبة حتى تظل الاتصالات واضحة وموثوقة؟

تحدي الكلام تحت سطح البحر
يُستخدم الغوص المُشبع في أعماق البحر لأداء مهام مثل البناء تحت الماء والإنقاذ واستكشاف الموارد. يعيش الغواصون في حجرات معدنية مضغوطة لتطابق الأعماق التي يعملون عندها، ويتنفسون خليط غازي من الهيليوم والأكسجين يعرف باسم Heliox. كثافة الهيليوم المنخفضة تغيّر كيفية انتقال الصوت في القناة الصوتية: يصبح الكلام نقيقًا، مع تحول في التوافُق وضبابية الحروف الساكنة، ويضيف الهمهمة المستمرة لمراوح التهوية ضوضاء خلفية قوية. أنظمة التعرف على الكلام القياسية، المُدَرَّبة على أصوات يومية في الهواء، تُؤدي أداءً ضعيفًا في هذا السياق. فهي تسيء سماع الكلمات، وتتعثر مع المصطلحات الفنية، وغالبًا ما تفشل تمامًا عند أقصى ظروف الصوتية.
بناء مجموعة بيانات واقعية لأصوات الغوص العميق
لدراسة هذه المشكلة بطريقة واقعية، سجّل الباحثون كلام الغواصين داخل نظام تشبُّع مثبت على سفينة فعليًا. التقطوا صوتًا في ظرفي عمل اثنين: ما يعادل 12 مترًا و25 مترًا تحت الماء، كل منهما مع مستويات الهيليوم والأكسجين مضبوطة بعناية. وُصِّلت الميكروفونات بجهاز الاتصال الداخلي في الغرفة، ما حافظ على الضوضاء الخلفية والصدَى الواقعيين. وبما أن التسجيل في هذه الظروف صعب ومكلف، ساهم كل غواص ببضع دقائق فقط من الكلام الخام. ولإعطاء نموذج الحاسوب مادة كافية للتعلم، وسّع الفريق بيانات التدريب عشرة أضعاف باستخدام حيل بسيطة: مطّ وتسريع معدل الكلام، تقطيع وإعادة تجميع المقاطع، ومزج ضوضاء قاع البحر بمستويات مختلفة. والأهم من ذلك، استخدموا غواصين مختلفين للتدريب والاختبار بحيث تعكس النتائج التعميم الحقيقي وليس الحفظ.
تعليم الذكاء الاصطناعي التكيّف دون البدء من الصفر
بدلاً من بناء نظام جديد من الصفر، بدأ المؤلفون بـ Whisper، نموذج مفتوح المصدر للتعرف على الكلام مدرَّب مسبقًا على كميات هائلة من الصوت متعدد اللغات. لكن تطبيق هذا النموذج مباشرة على كلام Heliox أدى إلى معدلات خطأ مرتفعة جدًا، ما يبيّن مدى اختلاف أصوات الهيليوم عن الكلام الطبيعي. إعادة تدريب Whisper بالكامل على بيانات Heliox المتخصصة ستكون مضيعة ومكلفة، لذا لجأ الفريق إلى تقنية تسمى التكييف منخفض الرتبة (LoRA). ببساطة، تضيف LoRA «طبقة جانبية» صغيرة جدًا إلى أجزاء رئيسية من النموذج مع تجميد الشبكة الأصلية. تُعدّل مجموعة صغيرة للغاية من المعلمات الإضافية فقط على التسجيلات المتخصصة، مما يخفض جهد التدريب إلى نحو نصف بالمئة من النموذج الكامل مع الحفاظ على معرفته اللغوية الواسعة.

الاستماع الذكي أثناء فك التشفير
فوق هذا النموذج المتكيف، طبّق الباحثون عدة حيل خفيفة الوزن تُستخدم فقط عندما يستمع النظام ويحوّل ما يسمعه إلى نص. وحدة واحدة تحث النظام بشكل لطيف على تفضيل الكلمات الفنية المهمة—مثل أسماء المعدات—كلما دلّ الصوت على احتمال حضورها. وحدة أخرى تشغّل الصوت بسرعات طفيفة مختلفة وتقارن النصوص الناتجة، مما يساعد على التخفيف من اختلافات معدل الكلام. ثم يعيد نموذج لغوي بسيط ترتيب جميع الترجمات المرشَّحة، موازنًا بين مدى توافقها مع الأصوات، وتكرار ظهور الكلمات المهمة، وطبيعية تسلسل الحروف في اللغة الصينية المندرين. وللمحادثات الطويلة، يُغذّي النظام أيضًا مخرجاته الأخيرة مرة أخرى إلى المقطع التالي كمطالبة، مما يساعده على البقاء في السياق وتجنّب قطع الجمل في نقاط محرجة.
ماذا تعني النتائج لسلامة الغواصين
تُظهر الاختبارات على تسجيلات العمق 12 مترًا و25 مترًا أن هذا النهج يحسّن بشكل كبير التعرف على كلام الهيليوم. نموذج Whisper الجاهز أخطأ في نسبة كبيرة من الحروف، لكن النسخة المُعدَّلة بـ LoRA قلّلت الأخطاء بما يقارب مرتبة كاملة بينما تدرّبت على جزء يسير من المعلمات وظلت قابلة للتشغيل عمليًا على خوادم قياسية. خطوات فك التشفير المضافة—وخاصة إعادة الترتيب القائمة على اللغة—خفضت الأخطاء أكثر مع تأخير إضافي ضئيل، رغم أن حيلًا أكثر عدوانية مثل التكبير وقت الاختبار كانت مفيدة بشكل رئيسي عندما لم تكن الاستجابة الفورية حرجة. تُظهر الدراسة أنه مع تكييف وفك تشفير ذكيين، يمكن إعادة تشكيل نماذج الكلام الكبيرة الموجودة لتصبح «آذانًا» دقيقة وموفِّرة للموارد للغواصين في بيئات أعماق البحر العدائية، مما يسهل على الفرق فوق وتحت السطح أن تفهم بعضها بعضًا عندما تكون الحاجة أكبر.
الاستشهاد: Mao, W., Gu, H., He, J. et al. LoRA-enhanced whisper for resource-efficient heliox speech recognition. Sci Rep 16, 14080 (2026). https://doi.org/10.1038/s41598-026-38201-7
الكلمات المفتاحية: الكلام تحت الماء, صوت الهيليوم, التعرف على الكلام, الغوص المُشبع, تكييف LoRA