Clear Sky Science · ar

تشذيب غابة الأشجار وإعادة العيّنة لمشكلة اختلال توازن الفئات

· العودة إلى الفهرس

لماذا تهم الحالات النادرة في التنبؤات الذكية

تعتمد العديد من القرارات المدعومة بالذكاء الاصطناعي على رصد الحدث النادر: عملية شحن بطاقة ائتمان احتيالية، علامة مبكرة لمرض، أو عطل خطير في آلة. في هذه الحالات، تكون الحالات المهمة أقل بكثير من الحالات العادية، وتميل معظم خوارزميات التعلم إلى تجاهلها. يعرض هذا المقال طريقة تجعل أسلوباً شائعاً—الغابات العشوائية—أكثر انتباهاً لتلك الحالات النادرة لكن الحاسمة، مع جعل النموذج أكثر رشاقة وسرعة.

Figure 1
Figure 1.

مشكلة الأمثلة غير المتكافئة

يعمل تعلم الآلة التقليدي بشكل أفضل عندما تكون البيانات متوازنة—عندما تكون أعداد الأمثلة لكل نتيجة متقاربة. في الواقع، ومع ذلك، تهيمن الأحداث النادرة على العديد من المهام. على سبيل المثال، جزء صغير فقط من الأشعة الطبية يظهر ورماً، وحصة ضئيلة فقط من المعاملات احتيالية. يؤدي هذا الاختلال إلى أن تبدو الخوارزمية جيدة على الورق عن طريق التنبؤ غالباً بالنتيجة الشائعة، حتى لو كانت تفشل مراراً في رصد النادرة. ومع اتساع الفجوة بين الحالات الشائعة والنادرة، ينحرف حد قرار النموذج نحو أغلبية البيانات، وتصبح الفئة النادرة أكثر صعوبة في التعرّف.

موازنة الكفة بعينات ذكية

غالباً ما يحاول الباحثون إعادة موازنة هذه البيانات قبل تدريب النماذج. خيار واحد هو تقليص فئة الأغلبية (العيّنة الناقصة)، والتخلّي عن بعض الحالات الشائعة لمعادلة عدد النادرة. آخر هو نسخ أو توليد أمثلة نادرة إضافية (العيّنة الزائدة)، لزيادة حضورها دون فقدان البيانات الأصلية. نهج ثالث هجيني يمزج الفكرتين، بقص بعض أمثلة الأغلبية مع تعزيز الأقلية. لكل استراتيجية مقايضات: التقليص قد يلقي بمعلومات مفيدة، بينما تكرار الأمثلة قد يبطئ التدريب ويؤدي إلى فرط التكيّف. يستخدم المؤلفون كل هذه الاستراتيجيات لصنع مجموعات تدريب أكثر توازناً مخصّصة للبيانات المتاحة.

تعليم وتشذيب غابة من أشجار القرار

تركز الدراسة على الغابات العشوائية، طريقة تجميع تبني عدداً كبيراً من أشجار القرار على شرائح مختلفة قليلاً من البيانات ثم تجمع أصواتها. تُعرف الغابات العشوائية بقدرتها على التعامل مع بيانات معقدة وإبراز الميزات الأكثر أهمية. ومع ذلك، عند تدريبها على بيانات شديدة الاختلال، قد تظل الغابات الكبيرة متحيزة نحو فئة الأغلبية. في الطريقة المقترحة، يعيد المؤلفون أولاً موازنة البيانات باستخدام العيّنة الناقصة أو العيّنة الزائدة أو النهج الهجيني. ثم ينمّون العديد من الأشجار باستخدام إجراء الغابة العشوائية المعتاد، لكن مع لمسة مهمة: بدلاً من الاحتفاظ بكل شجرة، يقيمون كل شجرة باستخدام ملاحظات خارج الحقيبة—نقاط بيانات لم تُستخدم في بناء تلك الشجرة بالذات—ويستبعدون نصف الأشجار ذات معدلات الخطأ الأسوأ. تؤدي خطوة التشذيب هذه إلى غابة أصغر وأكثر انتقائية مبنية من أكثر الأشجار موثوقية.

Figure 2
Figure 2.

الاختبار على العديد من مجموعات البيانات الواقعية

لمعرفة مدى أداء هذه الغابة المشذبة، يختبرها المؤلفون على عشرة مجموعات بيانات متاحة علناً تعكس نطاقاً واسعاً من التطبيقات، من القياسات الطبية والبيولوجية إلى تصفية رسائل البريد المزعج وتصنيف الصوت. لكل مجموعة بيانات فئتان، إحداهما نادرة بوضوح عن الأخرى، وتختلف في الحجم وعدد الميزات ودرجة الاختلال. تُقارن الطريقة الجديدة مع عدة أساليب مستخدمة على نطاق واسع: الجار الأقرب k، شجرة قرار واحدة، غابة عشوائية قياسية، متغير الغابة العشوائية المتوازنة، وآلات المتجه الداعم. عبر استراتيجيات العيِّنة المختلفة، تحقق الغابة المشذبة أخطاء تصنيف أقل باستمرار مقارنة بالبدائل في معظم مجموعات البيانات. تعطي مزيج العيّنة الهجينية مع التشذيب أفضل النتائج الإجمالية، سواء من حيث الدقة أو الأداء المستقر عبر جميع المهام العشرة.

نماذج أدق تهدر جهداً أقل

بخلاف الدقة، تحسّن هذه المقاربة الكفاءة أيضاً. عن طريق قطع الأشجار الأقل فاعلية، تصبح المجموعة النهائية أصغر وتتطلب حساباً أقل للتدريب وإصدار التنبؤات، دون التضحية—وغالباً مع تحسين—بقدرتها على كشف الحالات النادرة. تؤكد الاختبارات الإحصائية أن التحسنات مقارنةً بالأساليب المنافسة ليست مجرد صدفة. للممارسين الذين يواجهون بيانات غير متوازنة، يُظهر هذا العمل أن موازنة مجموعة التدريب بعناية ثم تشذيب الغابة العشوائية استناداً إلى أداء خارج الحقيبة يمكن أن ينتج نماذج أكثر دقة وكفاءة. بعبارات يومية، تساعد الطريقة خوارزمياتنا على منح الاهتمام الواجب للإشارات النادرة لكن المهمة المختبئة في بحر من الأمثلة العادية.

الاستشهاد: Faiz, N., Iftikhar, S., Jan, S. et al. Pruning tree forest and re-sampling for class imbalanced problem. Sci Rep 16, 8087 (2026). https://doi.org/10.1038/s41598-026-38320-1

الكلمات المفتاحية: اختلال توازن الفئات, الغابة العشوائية, إعادة التعيين العيني, تعلم الآلة, طرق التجميع