Clear Sky Science · ar
أهمية مجموعات البيانات المتوازنة مع اختيار الميزات وأساليب التجميع في تصنيف أمراض القلب باستخدام تقنيات تعلم آلي مميزة: تحليل مقارن
لماذا يهم هذا لقلوب الناس اليومية
لا تزال أمراض القلب القاتل الأول في العالم، ومع ذلك فإن معظم الأشخاص الذين يملؤون استبيانات صحية أو يزورون العيادات لا يرون إجاباتهم تتحول إلى تحذيرات مبكرة. تطرح هذه الدراسة سؤالاً بسيطاً لكنه ذو أثر كبير: إذا قمنا بتنظيف وإعادة موازنة مجموعات بيانات صحية كبيرة، واخترنا بعناية عوامل الخطر الأكثر دلالة، ثم انتقينا نوع النموذج الحاسوبي المناسب، فهل يمكننا أن نحقق أداءً أفضل بشكل ملحوظ في رصد من هم أكثر عرضة لتطور مشاكل قلبية؟

تحويل بيانات صحية فوضوية إلى شيء مفيد
عمل الباحثون مع مجموعة بيانات عامة كبيرة من نظام مراقبة عوامل الخطر السلوكية في الولايات المتحدة، التي تحتوي على معلومات ذاتية الإبلاغ من آلاف البالغين حول صحتهم وعاداتهم. كل شخص موصوف بواسطة 17 متغيراً يومياً مثل العمر، وحالة التدخين والشرب، ومدة النوم، والنشاط البدني، والسكري، وأمراض الكلى، والتقييم العام للصحة الذاتية، إلى جانب ما إذا كان لديه مرض قلبي. مثل معظم السجلات الطبية الواقعية، كانت البيانات فوضوية: بعض القيم مفقودة، وبعض الأشخاص كانوا نقاط شاذة واضحة، وقلة ممن أبلغوا عن مرض قلبي مقارنة بعدد غير المصابين. قام الفريق أولاً بتنظيف البيانات، وملأ القيم المفقودة، وأزال القيم الشاذة المتطرفة، ثم قسم السجلات إلى مجموعات منفصلة لتدريب واختبار النماذج الحاسوبية.
معالجة مشكلة الحالات النادرة
كان أحد العوائق الكبيرة هو الاختلال: الأشخاص غير المصابين بأمراض القلب كانوا أكثر عدداً بكثير من المصابين بها. في مثل هذه الحالات، يمكن أن يبدو النموذج دقيقاً ببساطة بتخمين "لا يوجد مرض" معظم الوقت، بينما يفوت العديد من الحالات الحقيقية. لمواجهة ذلك، استخدم المؤلفون تقنية تسمى الإفراط في العينات (oversampling)، التي تنشئ أمثلة تركيبية واقعية للحالات النادرة من "مرض القلب" بحيث تحتوي بيانات التدريب على أعداد متقاربة من النتائج الإيجابية والسلبية. حسّن هذا الخطوة الموازنة قدرة عدة نماذج على اكتشاف الأشخاص المصابين بأمراض القلب، لكن بمفردها لم تجعل التنبؤات حادة أو مميزة بشكل موثوق.

اختيار عوامل الخطر الأكثر دلالة
سألت الدراسة بعد ذلك أي قطع المعلومات عن الشخص تهم أكثر في التنبؤ. اختبر المؤلفون ثلاث عائلات من الأدوات الإحصائية التي تقيم كل ميزة بمدى ارتباطها بمرض القلب. قيّموا كل منها بمفرده وفي ثمانية جمعيات واشتراكات مختلفة، سائِلين في الجوهر: "ماذا لو احتفظنا بكل ما تحدده أي طريقة؟" مقابل "ماذا لو احتفظنا فقط بالميزات التي تتفق عليها كل الطرق؟" برزت عبر الطرق فئات العمر، والتقييم العام للصحة الذاتية، وصعوبة المشي، وتاريخ السكتة الدماغية، والسكري، وأمراض الكلى، ومؤشر كتلة الجسم، وبعض مؤشرات نمط الحياة كالإشارات الأكثر إفادة تكراراً.
مواجهة نماذج تعلم الآلة وجهاً لوجه
مع بيانات متوازنة وميزات مختارة بعناية، قارن الفريق سبع مقاربات شائعة في تعلم الآلة: الانحدار اللوجستي، أشجار القرار، الغابات العشوائية، نايف بايز، آلات الدعم الناقلة، الشبكات العصبية الاصطناعية، وخوارزمية الجار الأقرب k. قَيَّموا هذه النماذج باستخدام مقاييس شائعة: الدقة العامة، ومدى صحة التنبؤات الإيجابية (الدقة الإيجابية)، وكمية الحالات الحقيقية المكتشفة (الاستدعاء)، ومدى قدرة النماذج على فصل المرضى عن غيرهم عبر كل العتبات (مقياس ROC–AUC). تصدرت الغابات العشوائية وأشجار القرار النتائج بشكل مستمر بعد تطبيق اختيار الميزات، خاصة عندما كانت طرق ANOVA جزءاً من عملية الاختيار. في أفضل إعداد، وصلت الغابة العشوائية إلى نحو 92% دقة، و93% استدعاء، وAUC بقيمة 0.92، متقدمة بوضوح على المنافسين.
متى يساعد دمج النماذج — ومتى لا
استكشف المؤلفون أيضاً "التجميع (bagging)", وهو طريقة لإنشاء نسخ عديدة متشابهة قليلًا من نموذج ثم جمع تصويتاتها. تُستخدم هذه الحيلة في التجميع غالباً لتقليل تذبذب النماذج مثل أشجار القرار. في هذه الدراسة، جلب التجميع مكاسب طفيفة لبعض النماذج ذات التباين العالي لكنه لم يُحسّن بشكل دراماتيكي قدرتها على التمييز بين مرضى القلب والأصحاء، خصوصاً عند استخدامه دون اختيار الميزات الدقيق المذكور أعلاه. في الواقع، أحياناً أدى الاعتماد على التجميع وحده إلى ترك حالات إيجابية مهمة دون اكتشاف، وهو ما سيكون غير مقبول في سياق طبي.
ماذا يعني هذا للمرضى والأطباء
بالنسبة لغير المتخصص، الرسالة الأساسية هي أن طريقة إعداد وتشكيل البيانات قد تهم أكثر من مدى تعقيد نموذج التنبؤ. مجرد إلقاء خوارزمية معقدة على سجلات صحية غير متوازنة ومليئة بالضوضاء ليس كافياً. تُظهر هذه العمل أن موازنة البيانات واختيار مجموعة مركزة من عوامل الخطر ذات معنى — لا سيما تلك التي تسلطها طرق ANOVA — يسمح لنماذج بسيطة نسبياً مثل الغابات العشوائية وأشجار القرار بإجراء تنبؤات بأمراض القلب أكثر موثوقية بكثير. وبينما لا تزال هذه النتائج بحاجة إلى تأكيد على مجموعات سكانية أخرى وفي عيادات فعلية، فإنها تشير إلى وصفات عملية لبناء أدوات إنذار مبكر قد تساعد الأطباء يوماً ما على اكتشاف المرضى المعرضين للخطر مبكراً وتفصيل جهود الوقاية بشكل أكثر فعالية.
الاستشهاد: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4
الكلمات المفتاحية: التنبؤ بأمراض القلب, تعلم الآلة, اختيار الميزات, موازنة بيانات الصحة, نماذج الغابة العشوائية