Clear Sky Science · ar

شبكة دمج ميزات متعددة المستويات موجهة بالإنتروبيا لاسترجاع الصور المحتوى-قائم بدقة عالية

2026-02-05 · العودة إلى الفهرس

إيجاد الصورة المناسبة بسرعة

ننشئ ونخزن يوميًا أعدادًا هائلة من الصور — من فحوصات طبية وصور فضائية إلى لقطات أمنية وصور شخصية. ووسم هذه الصور والبحث فيها يدويًا أمر بطيء وغير موثوق. يعرض هذا البحث طريقة أذكى للحواسيب «لنظر» إلى الصور مباشرةً وإيجاد ما نريده بدقة عالية، حتى في مجموعات كبيرة ومتباينة جدًا.

لماذا النظر إلى البكسلات وحدها لا يكفي

غالبًا ما يعتمد البحث التقليدي في الصور على أسماء الملفات أو وسوم بسيطة مثل «قطة» أو «مبنى». لكن الناس لا يوسمون الصور دائمًا بعناية، والحواسيب ترى البكسلات الخام فقط، لا المعاني الغنية التي يستنتجها الإنسان. حاولت أنظمة المحتوى السابقة جسر هذه الفجوة باستخدام دلائل بصرية بسيطة مثل اللون والملمس والشكل. هذه الدلائل ساعدت، لكنها عادة ما تُدمج بأوزان ثابتة مسبقًا. هذا يعني أن النظام اعتبر بعض الميزات أكثر أهمية دائمًا من غيرها، حتى لو كان بحث معين سيستفيد من مزيج مختلف. ونتيجة لذلك، تراجعت الدقة عندما تغيّرت أنواع الصور أو الإضاءة أو المشاهد.

دمج طرق رؤية متعددة

يقترح المؤلفون إطار استرجاع جديد يدمج نوعين رئيسيين من الدليل البصري. أولًا، يستخدمون نماذج التعلم العميق — شبكات معروفة مثل ResNet50 وVGG16 — التي تعلّمت التعرف على أنماط معقدة في الصور. ثانيًا، يضيفون واصفات «مصنوعة يدويًا» تقليدية تلتقط توزيع الألوان والحواف والملمس بطريقة أكثر ضبطًا. بدلًا من التخمين مسبقًا لمدى أهمية كل نوع من الميزات، يترك النظام للبيانات أن تقرر. يقيس مدى معلوماتية كل ميزة بالنسبة لبحث معين ويعدّل تأثيرها تلقائيًا. هذا المزيج متعدد المستويات بين دلائل عالية المستوى ومنخفضة المستوى يساعد الحاسوب على تشكيل فهم أغنى وأكثر مرونة لمحتوى الصورة.

ترك المعلومات والثقة تضبط الأوزان

في صلب الطريقة فكرة الإنتروبيا، مقياس لمقدار عدم اليقين أو تشتت المعلومات. الميزات التي تفصل باستمرار بين الصور ذات الصلة وغير ذات الصلة لها إنتروبيا أقل وتُعامل كأكثر «تمييزًا». بالنسبة لاستعلام جديد، يقيّم النظام كيفية تصرف كل ميزة عبر قاعدة البيانات ويمنحها درجة أهمية أولية. ثم يفحص مدى موثوقية نتائج البحث لكل ميزة — ما إذا كانت التطابقات العليا تشبه الاستعلام فعلاً — ليبني مفهومًا عن «الثقة» لكل نوع من الدلائل. تُغذى درجات الثقة هذه في عملية شبيهة ببيج رانك، على غرار كيفية تحديد محركات البحث المبكرة لأهمية الصفحات، لصقل أوزان الميزات عبر شبكة انتقال احتمالية.

من أوزان ذكية إلى ترتيبات أفضل

بمجرد أن يتعلّم النظام مقدار الثقة في كل ميزة بالنسبة للاستعلام الحالي، يجمع درجات الإشباه الخاصة بها إلى مقياس شامل واحد لكل صورة في قاعدة البيانات. تُرتب الصور بعد ذلك وفقًا لهذه النتيجة الشاملة، بحيث ترتفع إلى القمة الصور التي تطابق الاستعلام بطرق أكثر دلالة. يختبر المؤلفون منهجهم على مجموعات معيارية مستخدمة على نطاق واسع ويقارنونه بعدة طرق موجودة. ويبلغون عن زيادة تصل إلى 8.6% في المتوسط المرجّح للدقة (mean average precision) وتحسينات ملحوظة في جودة أفضل عشرة نتائج، سواء من حيث الدقة أو ملاءمة الترتيب. وتُظهر الاختبارات الإحصائية أن هذه التحسينات من غير المرجح أن تكون نتيجة للصُدفة، مما يشير إلى أن النظام دقيق ومستقر عبر أنواع عديدة من الصور.

ماذا يعني هذا لبحث الصور اليومي

بعبارات بسيطة، يوضح هذا البحث كيف نجعل محركات بحث الصور تتكيّف مع كل سؤال بدلًا من الاعتماد على قواعد جامدة. بترك محتوى المعلومات والثقة المكتسبة يقرّران أي الدلائل البصرية هي الأهم، يستطيع النظام إيجاد الصور المناسبة بمعدل أكبر، سواء كان ذلك لتحديد بصمة في قاعدة بيانات جرائم ضخمة، أو للعثور على مبنى معين في صور فضائية، أو لعرض الفحص الطبي الصحيح. يقر المؤلفون أن الطريقة أثقل حسابيًا من الأنظمة الأبسط، لكنهم يجادلون بأن موثوقيتها ودقتها الأعلى تجعلها مناسبة لمستودعات الصور الكبيرة والحساسة حيث إن الحصول على الصورة الصحيحة أمر حاسم.

الاستشهاد: Lavanya, M., Vennira Selvi, G., Gopi, R. et al. Entropy guided multi level feature fusion network for high precision content based image retrieval. Sci Rep 16, 7449 (2026). https://doi.org/10.1038/s41598-026-38699-x

الكلمات المفتاحية: استرجاع الصور القائم على المحتوى, التعلّم العميق, دمج الميزات, بحث الصور, توزين بالإنتروبيا