Clear Sky Science · ar

مخطط قوي لوضع علامة صفرية صوتية باستخدام بصمات متعددة الميزات وتعلم الآلة

2026-03-14 · العودة إلى الفهرس

لماذا تهم العلامات المخفية في الصوت

يتم يوميًا نسخ وتدفق ومشاركة الأغاني والبودكاست والتسجيلات عبر الإنترنت. هذا الوصول السهل رائع للمستمعين، لكنه يجعل من الصعب على المبدعين والشركات إثبات ملكيتهم للصوت دون الإضرار بجودة الصوت نفسه. الورقة الموضحة هنا تقدم طريقة جديدة لـ«وسم» الصوت بحيث يمكن إثبات الملكية حتى بعد معالجة مكثفة، مع الحفاظ على الصوت الأصلي دون تغيير.

حماية الصوت دون لمسه

الوسم الرقمي التقليدي يعمل بشكل مشابه لختم خفيف مطبوع على صورة أو أغنية: تُضاف بيانات إلى الملف الأصلي. مع الصوت، حتى التغييرات الطفيفة قد تخلق شوائب مسموعة أو تثير قضايا قانونية، خصوصًا في التسجيلات الجنائية أو الطبية أو الأرشيفية التي يجب أن تبقى نقية. يتخذ وسم الصفر مسارًا مختلفًا. بدلاً من تعديل الصوت، يفحص أنماطًا فريدة موجودة بالفعل في المقطع الصوتي ويستخدمها لبناء «بصمة» تخزن في مكان آخر. عند حدوث نزاع، يمكن مقارنة هذه البصمة مع تسجيل مشتبه به للتحقق من التطابق—لا حاجة لإجراء أي تعديل على الإشارة الأصلية.

الاستماع إلى الصوت من زوايا متعددة

يقترح المؤلفون نظام وسم صفري يستمع للصوت بطرق تكاملية متعددة في آن واحد. أولًا، يُقسَّم الصوت إلى مقاطع قصيرة غير متداخلة تُسمى إطارات. لكل إطار، يقيس النظام تسع ميزات مختلفة تصف كيفية تصرف الصوت عبر الزمن، وكيف تنتشر طاقته عبر النغمات المنخفضة والعالية، وكيف يبدو بناؤه عند التعامل معه كشبكة من العينات المترابطة. بعض الميزات تعكس التغيرات السريعة، مثل الإيقاعات المفاجئة أو البدايات؛ والبعض الآخر يلتقط أين تتركز الطاقة في الطيف أو مدى اتساع نطاق الترددات؛ بينما تستخلص ميزات أخرى الشكل العام للإشارة عبر تحويلات رياضية. معًا، ترسم هذه القياسات صورة غنية عن كل لحظة في الصوت.

من القياسات الغنية إلى بصمة مستقرة

ليست كل جوانب الصوت تبقى على حالها أمام المعالجات القاسية بنفس الدرجة. قد تُشوَّه بعض الميزات بفعل الضغط أو الترشيح أو إعادة العينة أو تغييرات الوقت أو الطبقة، بينما تظل ميزات أخرى غير متأثرة تقريبًا. للتعامل مع ذلك، يقيم الأسلوب كيفية تصرف كل من الميزات التسع تحت العديد من الهجمات المحاكاة. الميزات التي تبقى مستقرة تُعطى أهمية أعلى، أما التي تتقلب فتُخفض أهميتها. لكل إطار، تُدمج الميزات الموزونة في قيمة مركبة واحدة. ثم يحول مقارنة منزلقة مع الإطارات المجاورة هذا الأثر المستمر إلى سلسلة من الأصفار والآحاد، على نحو يشبه تحويل نمط صوتي إلى رمز شريطي. تُدمج هذه السلسلة الثنائية بعد ذلك مع الوسم المطلوب (على سبيل المثال، صورة شعار صغير محوَّلة إلى بتات)، منتجة البصمة الصوتية النهائية المرتبطة بشكل فريد بتلك القطعة من المحتوى.

تعليم آلة للقراءة عبر الضوضاء

التحدي الأساسي هو استرجاع نفس البصمة بعد أن يتعرض الصوت لهجوم—مثل إضافة ضوضاء، أو ضغطه إلى MP3، أو تغيير سرعته قليلًا. لحل ذلك، يدرب المؤلفون نموذج تعلّم آلي يسمى الغابة العشوائية (Random Forest). أثناء التدريب، يرى النظام أمثلة عديدة لنفس إطارات الصوت في شكلها الأصلي وبعد تشويهات مختلفة، مع «تسمية» ثنائية صحيحة لكل إطار. تتعلم الغابة العشوائية أي مزيج من ميزات الزمن والتردد والبنية يقود إلى صفر أو واحد. لاحقًا، عند تحليل تسجيل مشتبه به، تُعالَج إطاراته بنفس الطريقة، وتتنبأ الغابة المدربة بالسلسلة الثنائية. بدمج هذه السلسلة المتوقعة مع البصمة المخزنة، يمكن إعادة بناء الوسم الأصلي ومقارنته بالحقيقي. كما يقدم المؤلفون حجة رياضية تبيّن لماذا التركيز على الميزات المستقرة واستخدام مصنّف قائم على التصويت ينبغي أن يبقي أخطاء الاسترجاع منخفضة حتى تحت هجمات قوية.

مدى متانة الطريقة

لاختبار النظام، طبّق الباحثون منهجهم على 100 مقطع موسيقي من عدة أنماط، وعلى مقاطع كلام وأصوات بيئية إضافية من مجموعات بيانات عامة معروفة. ثم تعرض المحتوى المعلّم للوسم لطيف واسع من الاعتداءات: إضافة ضوضاء خلفية، وترشيح تمرير منخفض وعال، وضغط MP3، وإعادة عينة وإعادة كمّ، وتغييرات طفيفة في سرعة التشغيل، وتحويلات طبقة. كما استخدموا مجموعة اختبارات صارمة تسمى Stirmark، مصممة خصيصًا لتحدي مخططات الوسم. عبر معظم الظروف، اختلفت البصمات المستردة عن الأصلية بأقل من أربعة في المئة من البتات، وظلت درجات التشابه مرتفعة جدًا، ما يعني أن نمط الوسم حافظ على معظم صفاته. عند المقارنة مع عدة طرق وسم صفري متقدمة، أظهر النهج الجديد عمومًا قدرة مقاومة مساوية أو أفضل، لا سيما أمام تعديلات الوقت والطبقة الصعبة، مع الحفاظ على نقاء الصوت تمامًا.

ما يعنيه هذا للصوت اليومي

بعبارات بسيطة، تُظهر هذه الدراسة أنه من الممكن إثبات ملكية أغنية أو تسجيل دون تغيير أي عيّنة واحدة من الصوت الأساسي. من خلال الجمع بعناية بين وجهات نظر متعددة على الإشارة الصوتية واستخدام تعلم الآلة للقراءة عبر التشويهات، يولّد الأسلوب بصمة قوية تصمد أمام عمليات المعالجة الشائعة في العالم الواقعي. هذا يجعله أداة واعدة لشركات التسجيل، ومنصات البث، والأرشيفات، وأي مكان يتطلب بقاء الصوت دون مساس لكنه يحتاج حماية قوية ضد سوء الاستخدام.

الاستشهاد: Khaleel, D.I., Mosleh, M., Al-nidawi, W.J.A. et al. A robust audio zero watermarking scheme using multi feature fingerprints and machine learning. Sci Rep 16, 13504 (2026). https://doi.org/10.1038/s41598-026-40419-4

الكلمات المفتاحية: وسم صوتي, حقوق رقمية, تعلّم الآلة, معالجة الإشارة, حماية المحتوى