Clear Sky Science · ar
التعقيد الصوتي، نمط الكلام، والاختلافات الفردية تؤثر على أداء التعرف التلقائي على الكلام للغة تريفيت
لماذا يهم هذا لتقنيات الكلام اليومية
المساعدات الصوتية والترجمات التلقائية أصبحت جزءًا من الحياة اليومية، لكنها تعمل بشكل أفضل بكثير لبعض اللغات واللهجات مقارنة بغيرها. يستكشف هذا المقال ما يحدث عندما يُستخدم نظام تعرف على الكلام مُدرّب على لغة ذات موارد جيدة، وهي العربية، على التريفيت، وهي لغة أمازيغية تُتَكلم في شمال المغرب. من خلال فحص دقيق للكلمات التريفيتية التي يتعامل معها النظام جيدًا—وحيث يخطئ—يضيء الباحثون على تحيّزات خفية في التكنولوجيا الحالية وعلى كيفية تأثير أصوات اللغة في ما يمكن للآلات (وبالتمديد، المستمعين) فهمه بسهولة.
لغة على هامش تقنيات الكلام الحالية
تريفيت تمثل حالة اختبار لافتة لأن أنماط أصواتها تختلف كثيرًا عما يوجد في الكثير من اللغات الكبيرة التي تهيمن على التكنولوجيا. بينما تفضل كثير من اللغات مقاطع أبسط مثل «حرف+حرف صوتي» (CV)، تستخدم التريفيت بداية مقاطع أكثر تعقيدًا بارتياح: حرفان ساكنان متتاليان قد يرتفعان أو يبقيان ثابتين أو حتى يهبطان في «الصرامة الصوتية» (بعبارة بسيطة، مدى شدّة واهتزاز الصوت). كما تسمح الكلمات بالبدء بـ«مضاعف»؛ أي حرف ساكن طويل مزدوج. هذه الأنماط نادرة عبر لغات العالم وغالبًا ما تكون غائبة في العربية، رغم تشارك اللغتين العديد من الأصوات الفردية. هذا يجعل التريفيت مثالية لاختبار مدى قدرة نظام مُدرّب على لغة شائعة على التعامل مع تراكيب صوتية أقل اعتيادية—وماذا يخبرنا ذلك عن العدالة والشمول في تقنيات الكلام.

كيف اختبرت الدراسة الكلام الواضح والعادي
سجّل الباحثون 37 متحدثًا أصليًا للتريفيت من مدينة الناظور. قرأ كل مشارك 80 كلمة مستهدفة مضمّنة في جملة بسيطة حاملة، مرة بنمط حذر «واضح»—كأنهم يتحدثون إلى شخص يعاني من صعوبة في السمع—ومرة بنمط أسرع وعفوي، كما لو يتحدثون إلى صديق مقرب. صُممت قائمة الكلمات لاختبار النظام بقسوة: بعض العناصر بدأت بتكتلات حرفين متصاعدة أو ثابتة أو هابطة، بينما قاسمت عناصر أخرى بين بداية بحرف واحد مقابل حرف بادئ طويل (مضاعف). جرى تشغيل جميع التسجيلات عبر مُعرّف كلام تجاري بالعربية، وقارن الفريق ناتج الآلة بالشكل الصحيح للكلمة، باستخدام قياس دقة صارم (صحيح أو خاطئ) ومقياس «المسافة» الذي يحسب عدد تغييرات الحروف اللازمة لتصحيح الخطأ.
ما الذي نجحت الآلة في التعرف عليه—وأين تعثرت
بشكل عام، كانت التريفيت صعبة على نظام العربية، لكن نمط الحديث والبنية الصوتية أحدثا فرقًا واضحًا. عندما استخدم المتحدثون الكلام الواضح، تحسّن أداء المعرّف بشكل ملحوظ: أنتج مطابقات أكثر دقة وخمنات أقل لكلمات «خاطئة تمامًا»، وحتى أخطاءه كانت أقرب إلى تعديلات بسيطة بدلاً من إخفاقات كلية. الكلمات التي تبدأ بتكتلات متصاعدة—حيث تنتقل الأصوات من أقل إلى أكثر صرامة صوتية—تم التعرف عليها بدقة أكبر وبحاجة لتعديلات أقل مقارنة بالكلمات ذات الأنماط المستوية أو الهابطة. بالمقابل، الكلمات التي تبدأ بتكتلات هابطة وتلك التي تبدأ بحروف مزدوجة طويلة ولّدَت أخطاء أكثر باستمرار، حتى عندما نُطقت بعناية. تشير هذه النتائج إلى أن أشكال الأصوات النادرة هذه أصعب بطبيعتها على نظام مُدرّب على نمط مقاطع أكثر شيوعًا.

اختلافات بين المتحدثين دون تحيّز اجتماعي
سؤال مهم آخر كان ما إذا كان النظام يعامل بعض المتحدثين «بعدالة» أكثر من غيرهم. وجدت الدراسة اختلافات كبيرة بين الأفراد: كلمات بعض الأشخاص تم التعرف عليها بدقة أكبر بكثير من غيرها. مع ذلك، لم تُفسّر هذه الاختلافات بالعمر أو الجنس. أظهر الشباب والكبار، والرجال والنساء، أنماطًا متقاربة إلى حد واسع بمجرد احتساب بنية الصوت ونمط الكلام للكلمات. بدلًا من ذلك، كانت المحركات الرئيسة للأداء هي أنواع التكتلات الصوتية، وجود أو غياب الحروف المزدوجة، وما إذا كان الكلام واضحًا أم عفويًا. يشير هذا إلى أن المشكلة في هذا السياق أقل ما تكون حول من يتكلم وأكثر حول كيفية توافق—or تصادم—أنماط أصوات اللغة مع ما تدرب النظام على توقعه.
ما الذي يعنيه ذلك لأدوات صوتية أكثر عدلاً وذكاءً
للقارئ العام، هناك استخلاصان أساسيان. أولًا، التحدث بوضوح فعلاً يساعد الآلات على الفهم، خصوصًا للغات التي تجاهلتها التكنولوجيا إلى حد كبير؛ تشجيع الكلام الواضح يمكن أن يكون وسيلة منخفضة التكلفة لتحسين التفاعلات اليومية مع أنظمة الصوت. ثانيًا، ليست كل الأصوات متشابهة في صعوبتها: الأنماط النادرة مثل التكتلات الهابطة والحروف المزدوجة الابتدائية تظل صعبة على الأنظمة الحالية، حتى عند نطقها ببطء وبدقة. هذا يعني أن إعادة استخدام النماذج المبنية للغات كبيرة ومُدرَّسة جيدًا لن تكون كافية للوصول العادل. بدلًا من ذلك، ستحتاج الأنظمة المستقبلية إلى دمج معرفة بأنواع أوسع من البنى الصوتية والتكيّف مع طرق إنتاج المتحدثين الواقعيين لها. وبذلك، يمكنها أن تعامل متحدثي اللغات الممثلة تمثيلاً ناقصًا بعدالة أكبر وتقدّم رؤى جديدة حول كيفية تعامل السمع البشري نفسه مع الأنماط المعقدة في الكلام.
الاستشهاد: Afkir, M., Zellou, G. Phonological complexity, speech style, and individual differences influence ASR performance for Tarifit. Sci Rep 16, 13879 (2026). https://doi.org/10.1038/s41598-026-43245-w
الكلمات المفتاحية: التعرف التلقائي على الكلام, لغة تريفيت, الكلام الواضح, التعقيد الصوتي, اللغات ذات الموارد المحدودة