Clear Sky Science · ar
S2SWCLIP: مطالب مُحسَّنة دلالياً بتآزر الموجة المكانية للكشف عن الشذوذ دون تدريب
رصد عيوب دقيقة دون مشاركة بيانات حساسة
تعتمد المصانع والمستشفيات الحديثة بشكل متزايد على الكاميرات لاكتشاف العيوب والأمراض، لكن جمع وتوسيم أمثلة كافية للعيوب صعب—وفي الطب غالباً ما يقيده قانون الخصوصية. تقدم هذه الورقة S2SWCLIP، تقنية قادرة على اكتشاف أنماط غير اعتيادية في الصور، مثل الشقوق في المعدن أو مناطق مشبوهة في الصور الطبية، حتى لو لم تر أمثلة من خط إنتاج أو مستشفى محدد من قبل. تقوم بذلك عبر دمج استخدام ذكي للغة مع طريقة متقدمة لفحص الأشكال والأنسجة داخل الصور.
لماذا من الصعب العثور على مشاكل نادرة
كشف الشذوذ هو مهمة تحديد ما إذا كانت الصورة، أو حتى بكسل واحد، طبيعية أم معيبة. في خطوط الإنتاج والتصوير الطبي، العيوب الحقيقية نادرة ومتنوعة للغاية، لذا تعتمد الأنظمة التقليدية في الغالب على عينات طبيعية لتتعلم ما «يبدو طبيعياً». العديد من الأساليب الناجحة إما تعيد بناء الصور وتعلّم الاختلافات، أو تبني وصفاً مكثفاً للمظهر الطبيعي وتبحث عن القيم الشاذة. تعمل هذه الأساليب جيداً عندما تتوفر بعض بيانات من الحالة الهدف. لكن في بيئات حساسة للخصوصية أو سريعة التغير، قد لا تتاح فرصة لإعادة تدريب النماذج لكل منتج أو جزء من الجسم. تقدم الطرق الحديثة «دون تدريب» المبنية على CLIP—وهو نموذج قوي يربط الصور بالنص—سبيلًا لاكتشاف الشذوذ عبر وصفه بالكلمات فقط. مع ذلك، غالباً ما تعتمد الطرق الحالية على مطالب نصية غامضة وميزات صورة خشنة، ما قد يطمس الخط الفاصل بين الأنماط الطبيعية والشاذة.

تشديد لغة الطبيعي والمعطّل
يتعامل S2SWCLIP أولاً مع جانب اللغة. بدلاً من استخدام عبارة واحدة عامة مثل «كائن تالف»، يبني الأسلوب ثلاث مجموعات من المطالب. الأولى غير مرتبطة بالشيء وتتحدث عن عنصر غير مسمّى كونه طبيعيًا أو تالفًا. الثانية تقارن حالات إيجابية وسلبية بعبارات مشحونة عاطفياً مثل «مثاليًا» مقابل «متضرر بشدة»، إلى جانب مجموعات من المصطلحات التي توحي بحالة خالية من العيوب أو بها أعطال. العائلة الثالثة تذكر أنواع عيوب محددة—مثل الشقوق أو الخدوش—لتجسيد مفهوم التلف بشكل أكثر واقعية. تُمرَّر هذه العبارات المختلفة عبر جزء النص في CLIP، وتقوم آلية دمج خاصة بمقارنة وتجميع إشاراتها الداخلية. عبر تصفية المكونات المزعجة والتأكيد على المكونات المرتبطة بقوة، ينتج النظام تصوُّراً أغنى وأكثر فصلًا لما تعنيه «الطبيعي» و«الشاذ» قبل النظر إلى أي صورة.
رؤية التفاصيل والصورة العامة في الصور
على الجانب البصري، يعيد S2SWCLIP صياغة طريقة نظر CLIP إلى الصور. الإصدارات القياسية تميل إلى تفضيل الانطباعات العامة الواسعة، والتي قد تفقد خطوط الشق الرفيعة أو التظليل الدقيق الذي يدل على مرض مبكر. لمعالجة ذلك، يضيف المؤلفون وحدة دمج هرمية تخلط معلومات من دقات مختلفة، محافظةً على كل من التفاصيل الدقيقة والبُنى الكبيرة. ثم يطبقون تحويل مويجي مزدوج، أداة كلاسيكية من معالجة الإشارات تُقسِّم الصورة إلى مكونات خلفية ناعمة وحدود أو نسيج أكثر حدة. باستخدام نوعين من المويجات، يلتقط الأسلوب التغيرات العالمية اللطيفة والتغيرات المحلية الحادة في آن واحد، ثم يعيد دمجها إلى خرائط ميزات واعية بالتردد. يمنح هذا «التآزر المكاني-المويجي» النموذج رؤية أكثر حساسية للعيوب الدقيقة التي تبرز في النسيج أو التردد ولكن قد تكون شبه غير مرئية للعين المجردة.

محاذاة ما نقوله مع ما نراه
الخطوة النهائية هي مطابقة هذه الميزات الصورية المحسّنة مع المطالب النصية المحسَّنة. بالنسبة للصور الكاملة، يقيس S2SWCLIP مدى تطابق تمثيل كل مطلب مع الوصف العالمي للصورة. لخرائط البكسل، يقدم مقياس تشابه قائم على الإنتروبيا يفحص كمية المعلومات التي تحملها كل منطقة محلية مقارنةً بميزات النص. تُبرز المناطق التي تشبه إحصائياً مطالب الشذوذ لكنها تختلف عن مطالب الطبيعي كمناطق مريبة. يتم تهيئة النموذج على معيار صناعي واحد ثم يُختبر، دون إعادة تدريب، عبر 14 مجموعة بيانات متنوعة تغطي أجزاء مصنعة وملمساً وصوراً طبية. في معظم هذه الاختبارات، يتفوق S2SWCLIP على أساليب دون تدريب سابقة في تصنيف مستوى الصورة وتحديد مواضع البكسل، مع الحفاظ على وقت حساب وعدد معلمات قابلة للتدريب في مستويات معتدلة.
ماذا يعني هذا للتفتيش في العالم الحقيقي
لغير المتخصص، الرسالة الأساسية أن S2SWCLIP يتجاوز صيغة «هل هو مكسور؟» البسيطة والرؤية الخشنة، وبدلاً من ذلك يجمع لغة دقيقة مع نظرة مجهرية إلى بنية الصورة. عبر تعزيز التباين بين الأوصاف الطبيعية والمعطلة، وتقسيم الصور إلى مكونات ذات مقاييس متعددة ومعتمدة على التردد، يصبح الأسلوب أكثر موثوقية في الإشارة إلى العيوب دون الحاجة لأمثلة من كل بيئة جديدة. وعلى الرغم من أنه قد لا يزال يواجه صعوبات مع الشواذ الدقيقة جداً التي تمتزج في خلفيات معقدة، يحدد المؤلفون اتجاهات مستقبلية—مثل تحليلات أكثر توطيناً وهندسة متقدمة—قد تسد هذه الفجوة. عموماً، يوفر S2SWCLIP خطوة واعدة نحو أنظمة تفتيش مرنة تحترم الخصوصية وقابلة للتكيّف مع صناعات وسياقات طبية جديدة بحد أدنى من البيانات الإضافية.
الاستشهاد: Zhang, H., Wu, C., Lu, J. et al. S2SWCLIP: semantic-optimized prompts with spatial-wavelet synergy for zero-shot anomaly detection. Sci Rep 16, 13062 (2026). https://doi.org/10.1038/s41598-026-43044-3
الكلمات المفتاحية: كشف الشذوذ دون تدريب, نماذج الرؤية واللغة, تفتيش صناعي, تحليل صور طبية, ميزات الصور بالمويجة