Clear Sky Science · ar

تصنيف نصوص كلمات الأغاني باستخدام شبكات عميقة هجينة متسلسلة متكيِّفة ونهج تحسين

2026-02-12 · العودة إلى الفهرس

لماذا تهم مرشحات الأغاني الأكثر ذكاءً

تنساب الموسيقى إلى حياتنا بشكل شبه مستمر، ومعظم ما نستمع إليه يختاره خوارزميات. ومع ذلك، ما تزال العديد من هذه الأنظمة تُعاني من سؤال بسيط: ما الذي تقوله كلمات أغنية بالضبط، ولمن تكون مناسبة؟ تتناول هذه الورقة هذه المشكلة عبر بناء نموذج ذكاء اصطناعي متقدّم يقرأ كلمات الأغاني تلقائياً ويصنّفها حسب المزاج، والنمط، والانطباع، وحتى نوع المؤدي. الهدف هو المساعدة في إنشاء قوائم تشغيل أكثر أماناً للأطفال، وتقديم توصيات مزاجية أدق، وأدوات أفضل لباحثي الموسيقى.

التحدي الكامن في كلمات الأغاني

الكلمات أغنى بكثير من كونها قائمة كلمات جيدة أو سيئة. نفس العبارة قد تبدو رقيقة في أغنية وتهديدية في أخرى، كما أن المستمعين يضيفون تجاربهم الشخصية لما يسمعون. عادةً ما تعتمد الفلاتر التقليدية على قوائم ثابتة من المصطلحات الهجومية أو على تقنيات إحصائية بسيطة. هذه الأساليب تفشل في التقاط السياق، ولا تواكب العامية المتغيرة، وغالباً ما تصنّف الأغاني بشكل خاطئ. وفي الوقت نفسه، أدى انفجار الموسيقى الرقمية إلى وجود ملايين المقاطع التي يجب تحليلها، بعدة لغات وأنماط، ما يفوق قدرة الوسم اليدوي والخوارزميات القديمة.

تنقية كلمات الأغاني الخام

يبدأ المؤلفون بجمع مجموعات كلمات كبيرة من ثلاث مجموعات بيانات منشورة تغطي معاً مئات الآلاف من الأغاني عبر أنواع ولغات متعددة. قبل أن يتعلم أي نموذج ذكاء اصطناعي من النص، يجب تنظيف الكلمات. تزيل المنظومة علامات الترقيم والرموز الخاصة والقطع المتكررة أو غير ذات الصلة، ثم تقلّص صيغ الكلمات المرتبطة إلى جذر مشترك (على سبيل المثال: "singing" و"sings" و"sang" تصبح جميعها "sing"). تزيل هذه الخطوة ما لا طائل منه من ضجيج مع الحفاظ على المعنى، بحيث تتيح للمراحل اللاحقة التركيز على النبرة العاطفية والموضوع بدلاً من فوارق التنسيق أو الأخطاء الإملائية.

ذكاء اصطناعي متعدد الطبقات يقرأ كالمستمع الدقيق

في قلب الدراسة يوجد نموذج جديد يسمى الشبكة العميقة الهجينة المتسلسلة المتكيِّفة، أو SCHADNet. يجمع بين ثلاث أفكار قوية من الذكاء اللغوي الحديث. أولاً، يقوم مشفر قائم على المحوّل (Transformer) بالتقاط كيفية ارتباط الكلمات ببعضها عبر كامل النص، وليس فقط الجيران المباشرين. ثانياً، تقرأ طبقة الذاكرة الطويلة القصيرة الاتجاهين (BiLSTM) النص إلى الأمام والخلف، مما يساعد النظام على فهم كيف تؤثر السطور السابقة في معاني التالية. ثالثاً، تكرّس طبقة الوحدة المتكررة ذات البوابة (GRU) هذه المعلومات إلى ملخص مضغوط مناسب لاتخاذ القرارات النهائية. تعمل هذه المكونات معاً مثل جوقة من القرّاء المتخصصين، كل واحد يركّز على جانب مختلف من نص الأغنية.

الاستلهام من استراتيجية البحر

كتابة طبقات التعلم العميق وحدها لا تكفي؛ فالإعدادات الداخلية—كالعدد الحقيقي للعصبونات ومدة التدريب—تؤثر بشدّة على الأداء. بدلاً من ضبط هذه الخيارات يدوياً، يعتمد المؤلفون نهج تحسين مستوحى من أنماط الصيد لدى مفترسات البحر. يستكشف خوارزمية المفترسات البحرية المحسّنة (IMPA) العديد من مجموعات المعاملات المحتملة، ويقترب تدريجياً من تلك التي تمنح أفضل النتائج. من خلال تقليص أجزاء من الخوارزمية الأصلية التي لم تكن مفيدة في هذا السياق، يحسّنون التقارب، بمعنى أن النظام يصل إلى حلول جيدة بصورة أسرع وأكثر موثوقية.

مدى أداء النظام

يختبر الباحثون SCHADNet مع IMPA على ثلاث مجموعات بيانات كلمات مختلفة ويقارنونه مع مجموعة من الطرق المعروفة، بما في ذلك مصنفات التعلم الآلي التقليدية وعدة نماذج تعلم عميق شائعة مثل LSTM البسيط، وأنظمة تعتمد على المحوّل فقط، وشبكات هجينة. عبر مقاييس الدقة والاستدعاء (كم من الأغاني ذات الصلة تم العثور عليها) ومقاييس جودة أخرى، يتفوق النهج الجديد باستمرار. في إحدى المجموعات متعددة اللغات الكبيرة، صنّف النظام بشكل صحيح نحو 93% من الأغاني وحقق قيمة تنبؤية سلبية مرتفعة بشكل خاص، مما يعني أنه جيد جداً في التعرف على الكلمات التي لا تنتمي إلى فئة مُعلّمة—وهو أمر حاسم لتجنّب الحظر المفرط أو الوسم الخاطئ.

ما يعنيه هذا للمستمعين والمبدعين

بالنسبة للقارئ العادي، الرسالة واضحة: بنى المؤلفون قارئاً أكثر دقة وموثوقية لكلمات الأغاني. بدلاً من الاعتماد على قوائم كلمات خام، ينظر نظامهم إلى العبارات الكاملة والسياق والأنماط عبر مجموعات موسيقية كبيرة، ثم يعيّن تسميات تلقائياً مثل المزاج أو الأسلوب أو الملاءمة للجمهور الأصغر سناً. وبينما النموذج معقّد ويتطلب موارد حسابية كبيرة، يفتح الباب أمام ضوابط أبوية أذكى، وقوائم تشغيل مزاجية أغنى، وطرائق جديدة لدراسة اتجاهات الموسيقى الشعبية. يهدف العمل المستقبلي إلى تقليل حاجته للبيانات وتسريع التدريب، لكن حتى في صورته الحالية، يشير SCHADNet إلى مستقبل تفهم فيه منصات الموسيقى الكلمات بعناية تقترب من انتباه المستمع البشري.

الاستشهاد: Jasmine, R.L., Mukherjee, S., Robin, C.R.R. et al. Serial cascaded hybrid adaptive deep networks-based lyrics text classification using optimization approach. Sci Rep 16, 8527 (2026). https://doi.org/10.1038/s41598-026-38813-z

الكلمات المفتاحية: توصية الموسيقى, تحليل الكلمات, تصنيف النصوص, التعلم العميق, الرقابة على المحتوى