Clear Sky Science · ar

تقييم احتمالية Usmile يوفر تقييماً قوياً خالٍ من العتبة لنماذج التصنيف الثنائي لمجموعات البيانات المتوازنة وغير المتوازنة

· العودة إلى الفهرس

لماذا تهم فحوصات النماذج الأفضل في القرارات اليومية

من الاختبارات الطبية إلى تقييم الجدارة الائتمانية، غالباً ما تجيب الحواسيب عن أسئلة بنعم أو لا: هل هذا المريض يعاني من أمراض القلب؟ هل ستكون هذه المعاملة احتيالية؟ ومع ذلك، قد تكون الأدوات التي نستخدمها للحكم على جودة هذه النماذج مضللة، خصوصاً عندما يكون ما نبحث عنه نادراً. تقدم هذه الورقة طريقة جديدة لفحص مثل هذه النماذج تنظر بشكل منفصل إلى مدى قدرتها على اكتشاف الحالات النادرة المهمة وإلى مدى قدرتها على تجنب الإنذارات الكاذبة، مما يوفر صورة أوضح للقرارات عالية المخاطر.

Figure 1
الشكل 1.

حدود بطاقات التقرير ذات الرقم الواحد اليوم

تختزل معظم «بطاقات التقرير» الحالية للنماذج، مثل منحنى ROC الشائع وقيمته الملخصة المساحة تحت المنحنى، الأداء إلى رقم واحد. هذا الرقم يخلط بين النجاح على الأشخاص الذين لديهم الحالة فعلاً (الحوادث) ومن ليس لديهم (غير الحوادث). في العديد من المشكلات الحقيقية، مثل التشخيص الطبي أو كشف الاحتيال، تكون المجموعة النادرة هي تحديداً ما نهتم به أكثر، وأخطاؤها أكثر تكلفة بكثير من أخطاء المجموعة الشائعة. في ظل عدم توازن شديد—عندما تكون غير الحوادث أكثر بكثير من الحوادث—يمكن أن توحي المقاييس التقليدية بأن النموذج جيد للغاية رغم أنه يؤدي أداءً ضعيفاً للحالات النادرة والحاسمة.

رؤية جديدة «على شكل ابتسامة» لقوة النموذج

يمدد المؤلفون فكرة التصوّر على شكل U التي اقترحوها سابقاً إلى طريقة كاملة اسمها تقييم الاحتمالية U‑smile. في جوهرها توجد درجة جديدة، هي نسبة الاحتمالية النسبية، التي تقارن مدى قابلية البيانات تحت نموذج معين مقابل نموذج مرجعي بسيط لا يحمل معلومات مفيدة. هذه الدرجة خالية بطبيعتها من اختيار عتبة: فهي تستخدم الاحتمالات المتوقعة الخام بدلاً من إجبار المستخدم على اختيار حد فاصل. والأهم أنها مفصَّلة إلى أجزاء منفصلة لمجموعتي الحوادث وغير الحوادث. في مخطط على شكل U، تُظهِر التحسينات لكل مجموعة بنقاط ملونة: «ابتسامة» عميقة ومتماثلة تعني أن النموذج يفيد كلتا المجموعتين؛ وشكل مائل يكشف متى تستفيد مجموعة واحدة فقط. يعكس حجم النقطة عدد الأفراد المتأثرين، ونمط الخط يشير إلى ما إذا كان التحسن موثوقاً إحصائياً.

كيف يتصرف الأسلوب على بيانات متوازنة ومائلة

لاختبار منهجهم، أنشأ الباحثون عدة مجموعات بيانات تركيبية تحاكي تحديات واقعية مختلفة: إشارات ضعيفة وقوية، وكذلك حالات عدم توازن شديد حيث تكون واحدة فقط من كل عشرة حالات هي حادث. كما حللوا مجموعة بيانات أمراض القلب المعروفة جيداً. في كل إعداد بنوا النماذج خطوة بخطوة، مضيفين متغيراً تلو الآخر باستخدام إما قواعد تقليدية قائمة على ROC أو معايير U‑smile الجديدة. في الحالات المتوازنة، اختارت كل الطرق متنبئاتٍ مماثلة وبلغت أداءً متقارباً تقريباً، مما يوحي أن U‑smile لا تقل على الأقل عن الممارسات الحالية عندما تكون البيانات متسقة. برزت الاختلافات الحقيقية في ظل عدم التوازن: هناك، حسّن اختيار المدعوم بـ U‑smile كشف الفئة الأقلية بما يصل إلى 16% في مساحة الدقة‑الاستدعاء و21% في مقياس F1 مقارنةً بالاختيار المدعوم بـ ROC، مع الحفاظ على أداء قوي للفئة الأكثرية.

Figure 2
الشكل 2.

رؤية ما يساهم به كل متنبئ بالفعل

بما أن مخططات U‑smile يمكن رسمها بعد كل خطوة نمذجة، فهي تعمل أيضاً كسجل بصري لكيفية نمو النموذج. في الأمثلة غير المتوازنة، حسّن المتنبئون الأوائل بشكل رئيسي التعرف على حالات الحوادث، مظهرين ابتسامة مائلة. أعاد المتنبئون اللاحقون التوازن، مما عمّق وموّزن المنحنى. نسخ منفصلة من الطريقة يمكن أن تُعطي الأفضلية عمداً إما للحوادث أو لغير الحوادث، مما يسمح للمستخدمين بتكييف النماذج لأهداف محددة—مثلاً تعظيم كشف المرض النادر بينما تركز نسخة أخرى على تجنب الإنذارات غير الضرورية. كما طبق المؤلفون الطريقة على نماذج الغابات العشوائية، التي تعمل بطريقة تختلف كثيراً عن الانحدار اللوجستي الكلاسيكي، ووجدوا أن نفس الأنماط على شكل U ما زالت تقدم رؤى واضحة، مما يدل على أن النهج يصلح عبر أنواع عديدة من الخوارزميات.

ماذا يعني هذا لقرارات المخاطر في العالم الحقيقي

بعبارات بسيطة، تقدم الدراسة طريقة أوضح وأكثر صدقاً للسؤال: «من الذي يساعده هذا النموذج فعلاً؟» بدلاً من درجة واحدة متغافلة، يبين تقييم الاحتمالية U‑smile، بلمحة، ما إذا كان النموذج يحسن فعلاً اكتشاف الأحداث النادرة ولكن المهمة، مقدار ما يفيد به الحالات الشائعة، وأي المتنبئات المضافة تقود هذه التغييرات. في مجالات مثل الطب والرياضة والتمويل والسلامة الصناعية—حيث قد يكون تفويت حدث نادر أكثر خطورة بكثير من إصدار إنذار كاذب عرضي—يمكن لهذا العرض حسب فئة أن يوجّه تصميم نماذج أفضل وتواصلاً أكثر شفافية حول المخاطر.

الاستشهاد: Więckowska, B., Guzik, P. Usmile likelihood evaluation provides robust threshold free assessment of binary classification models for balanced and imbalanced datasets. Sci Rep 16, 10000 (2026). https://doi.org/10.1038/s41598-026-40545-z

الكلمات المفتاحية: التصنيف الثنائي, البيانات غير المتوازنة, تقييم النموذج, نسبة الاحتمالية, تعلم آلي قابل للتفسير