Clear Sky Science · ar

نهج نمو الأنماط لاستخراج مجموعات العناصر المتكررة القصوى المتسامحة مع الأخطاء

· العودة إلى الفهرس

اكتشاف الأنماط الموثوقة في بيانات فوضوية

سجلات التسوق، وسجلات طبية، وقراءات الحساسات نادراً ما تكون مثالية. تُفقد الباركودات، وتتعطل الحساسات، ولا تُسجل النقرات أحياناً. ومع ذلك، لا تزال الشركات والعلماء يرغبون في معرفة ما الذي يظهر معاً بشكل موثوق—مثل حزم المنتجات، أو مجموعات الأعراض، أو علامات الإنذار للاحتيال. تعرض هذه الورقة طريقة جديدة لاكتشاف التركيبات المتكررة القوية من مثل هذه البيانات المشوشة، مع الحفاظ على عدد الأنماط المبلغ عنها صغيراً وقابلاً للإدارة.

Figure 1
Figure 1.

من التطابقات الدقيقة إلى أنماط مرنة

تبحث أدوات استخراج الأنماط التقليدية عن تركيبات عناصر تظهر متطابقة عبر العديد من السجلات. هذا يعمل جيداً فقط عندما تكون البيانات نظيفة. في العالم الحقيقي، مع ذلك، قد تختلف سلال التسوق التي “من المفترض” أن تحتوي على نفس الحزمة بوجود عنصر أو عنصرين مختلفين. لمواجهة هذا، يستخدم الباحثون مفهوماً يسمى التسامح مع الأخطاء. بدلاً من المطالبة بوجود كل عنصر في النمط في كل مرة، يسمحون بعدد محدد من العناصر المفقودة. إذا كان النمط {حاسوب محمول، فأرة، لوحة مفاتيح، سماعات} والتسامح هو واحد، فإن أي معاملة تحتوي على ثلاثة من هذه العناصر على الأقل لا تزال تُحسب على أنها تدعم النمط. هذا يمكّن الخوارزمية من التعرف على حزم واقعية تظهر بأشكال متباينة قليلاً.

لماذا التركيز على الأنماط الأكبر مهم

السماح بعناصر مفقودة يجعل من الأسهل أن تكون الأنماط متكررة، لكنه أيضاً يوسع فضاء البحث بشكل كبير. تصبح العديد من الأنماط المتداخلة بمختلف الأحجام ممكنة، خاصة في مجموعات بيانات التجزئة أو الويب الكبيرة. سردها جميعاً سيغرق الحواسيب والمحللين. بدلاً من ذلك، يركز المؤلف على الأنماط القصوى—وهي تلك التي لا يمكن توسيعها بإضافة عنصر آخر دون أن تصبح غير متكررة. تقدم هذه الأنماط القصوى المتسامحة مع الأخطاء ملخصاً موجزاً: كل تركيبة متكررة أصغر محتواة في واحدة منها على الأقل ويمكن استعادتها لاحقاً عند الحاجة.

نمو الأنماط داخل شجرة مضغوطة

الطرائق السابقة المتسامحة مع الأخطاء امتدت إلى حدٍ كبير من نهج كلاسيكي يولد ويختبر أنماط مرشحة مستوى بمستوى. تعاني هذه الاستراتيجية من عمليات مسح متكررة لمجمل مجموعة البيانات وعدد ضخم من المرشحين. تتخذ الخوارزمية الجديدة، المسماة FT-MFI-PG، مساراً مختلفاً مستوحى من نمو الأنماط. تبني أولاً بنية شجرية مضغوطة تدمج المعاملات التي تشترك في نفس العناصر الأولية. تمثل كل مسار عبر هذه الشجرة العديد من السجلات المتشابهة، مما يقلص البيانات بشكل كبير مع الحفاظ على أي العناصر تميل للظهور معاً. علاوة على ذلك، تُرفق الخوارزمية جداول صغيرة تسجل عدد مرات التشارك بين العناصر، حتى عندما تكون بعض العناصر مفقودة، بحيث يمكن تقييم التسامح محلياً دون إعادة زيارة البيانات الأصلية.

Figure 2
Figure 2.

التعمق في كيفية عمل الطريقة

تتم عملية الاستخراج عن طريق استكشاف هذه الشجرة من التركيبات الأصغر إلى الأكبر، ولكن فقط حيث تشير البيانات إلى وجود امتدادات ذات مغزى. لكل مجموعة واعدة من العناصر، تجمع الخوارزمية مجموعة المعاملات التي تدعمها—مع السماح بعناصر مفقودة وفقاً لمستوى التسامح المختار—ثم تبني شجرة أصغر تركز على تلك المجموعة. تتكرر هذه العملية بتقسيم واستحواذ، تنمو الأنماط خطوة بخطوة وتُقلم الفروع التي لا يمكن أن تؤدي إلى تراكيب متكررة ومتسامحة مع الأخطاء. تساعد حيل تقليم إضافية على تخطي مناطق البحث التي تغطيها بالفعل أنماط قصوى معروفة، مما يوفر مزيداً من الوقت والذاكرة.

ماذا أظهرت التجارب

اختبر المؤلف الطريقة الجديدة على عدة مجموعات بيانات معيارية من التجزئة وتصفح الويب وبيانات معاملات تركيبية. عبر نطاق واسع من مستويات التسامح وعتبات التكرار، وجدت خوارزمية نمو الأنماط باستمرار جميع الأنماط القصوى المتسامحة مع الأخطاء أسرع من التقنيات المنافسة، غالباً بفوارق كبيرة. كما استخدمت ذاكرة أقل من الطرق السابقة لنمو الأنماط التي بنت عدة أشجار، رغم أن طريقة مضغوطة جداً تعتمد على البتات ظلت الأكثر اقتصاداً في الذاكرة على حساب السرعة. كانت الفوائد ملحوظة بشكل خاص عندما كانت البيانات كثيفة أو مشوشة أو تحتوي على العديد من العناصر المحتملة المتكررة.

لماذا هذا مهم للمستقبل

بالنسبة للممارسين، الرسالة الأساسية هي أنه بات أكثر عملية الآن اكتشاف أنماط قوية ومفهومة بشرياً في بيانات غير مثالية دون أن تغمرهم نتائج مكررة. من خلال الجمع بين التسامح مع الأخطاء وشجرة تضغط المعاملات وتنمي الأنماط فقط حيث تدعمها الأدلة، تقدم الطريقة المقترحة وسيلة قابلة للتوسع لاستخراج حزم مستقرة من سلال التسوق، وسجلات الحساسات، ونقرات الويب، أو السجلات الطبية. بينما قد تجهد الحالات القصوى ذات الأبعاد العالية جداً الذاكرة، تُظهر هذه الدراسة أن نمو الأنماط يشكل أساساً قوياً لأدوات مستقبلية تتعامل مع البيانات المتدفقة، وتستغل عتاد متوازي، أو تضبط مستوى التسامح تلقائياً وفق الضوضاء الموجودة في مجموعات البيانات الحقيقية.

الاستشهاد: Bashir, S. A pattern-growth approach for mining maximal fault-tolerant frequent itemsets. Sci Rep 16, 14556 (2026). https://doi.org/10.1038/s41598-026-44941-3

الكلمات المفتاحية: استخراج مجموعات العناصر المتكررة, أنماط متسامحة مع الأخطاء, بيانات معاملات مشوشة, خوارزميات نمو الأنماط, شجرة FP