Clear Sky Science · ar
الشبكات التوليدية المتعارضة وXGBoost المحسّن عبر ضبط المعاملات للتنبؤ المحسّن بأمراض القلب
لماذا تحذيرات القلب المبكرة مهمة
لا تزال أمراض القلب السبب الرئيسي للوفاة على مستوى العالم، ومع ذلك تتراكم أغلب أضرارها بصمت على مدى سنوات. يجمع الأطباء بالفعل كميات كبيرة من المعلومات الصحية — من العمر وضغط الدم إلى عادات النوم والتمرين — لكن تحويل هذه البيانات الفوضوية وغير الكاملة إلى تحذيرات مبكرة موثوقة أمر صعب. يقدم هذا البحث نهجاً حاسوبياً جديداً، أطلقوا عليه GAN-XO، مصمماً لتمحيص مسوحات صحية واسعة وتحديد من هم في خطر مرتفع للإصابة بأمراض القلب بدقة ملحوظة، مع جعل قراراته أوضح وأكثر موثوقية للأطباء.

تحويل البيانات الصحية الفوضوية إلى شيء مفيد
ركز الباحثون على مجموعتين بيانات رئيسيتين: مسح أمريكي ضخم يضم أكثر من 300,000 بالغ، ودراسة فِرامنغهام الطويلة لأمراض القلب. تجمع هذه المصادر بين تفاصيل بسيطة مثل العمر والجنس والتدخين وقياسات سريرية مثل مؤشر كتلة الجسم، ضغط الدم، مستوى السكر في الدم، والصحة البدنية والنفسية المبلغ عنها ذاتياً. تتمثل التحديات المركزية في أن نسبة صغيرة فقط من الأشخاص في مثل هذه المجموعات يعانون بالفعل من أمراض القلب. تميل النماذج الحاسوبية القياسية إلى تعلم النمط «السهل» — وهو أن معظم الناس أصحاء — وتتجاهل المجموعة الأصغر والأهم من المرضى. إضافة إلى ذلك، تحتوي المسوحات والسجلات الطبية على أخطاء وقياسات متطرفة وبيانات مفقودة قد تربك حتى أفضل الخوارزميات.
تعليم الآلة تخيّل مرضى واقعيين
لمعالجة مشكلة عدم التوازن، لجأ الفريق إلى نوع من الذكاء الاصطناعي يعرف باسم الشبكات التوليدية المتعارضة (GAN). بدلاً من نسخ السجلات الموجودة أو مزجها فقط، تتعلم الـGAN خلق مرضى «تركيبيين» جدد واقعيين يشبهون أولئك المصابين بأمراض القلب. التصميم المحدد، وهو GAN مشروط، يُخبر أي فئة يجب أن يقلدها (مريض أم غير مريض)، لذلك يمكنه توليد أمثلة أكثر مصداقية للفئة عالية المخاطر بشكل متعمد. تحقّق المؤلفون من أن هؤلاء المرضى التركيبين حافظوا على العلاقات المهمة — مثل الارتباط بين العمر وضغط الدم أو بين السكري وسكر الدم — بدلاً من اختراع تركيبات مستحيلة. عزّزت هذه الخطوة بشكل كبير البيانات المتاحة لنموذج التنبؤ من دون مطالبة الأطباء بجمع عينات واقعية إضافية.
تنقية البيانات السيئة قبل إجراء التنبؤات
مع ذلك، قد تُدخل البيانات التركيبية أيضاً شذوذات، مثل أوزان جسم غير بيولوجية أو ملفات صحية متناقضة. وتعاني المسوحات الحقيقية وسجلات المستشفيات من مشكلات مماثلة. لذلك تضيف إطار عمل GAN-XO مرحلة تنقية بيانات صارمة بشكل غير اعتيادي. باستخدام أداتين إحصائيتين معياريتين — قيمة z والمدى البيني للربعات — يقوم النظام بوضع علامة على القيم وإزالتها التي تقع بعيداً خارج النطاقات الطبية المعقولة لقياسات مثل مؤشر كتلة الجسم، أيام الصحة السيئة في الشهر، زمن النوم، ضغط الدم، ومستويات الجلوكوز. والأهم أن المؤلفين تحققوا من أن هذه العملية لم تقم بحذف الأشخاص المصابين بأمراض القلب بشكل متحيز؛ فبقيت نسبة المحذوفين من المرضى والغير مرضى تقريباً كما في البيانات الأصلية. والنتيجة مجموعة سجلات أصغر لكن أكثر موثوقية للتدريب.

دمج بيانات ذكية ومُتنبئ قوي
بمجرد أن أصبحت البيانات متوازنة ونقية، استخدم المؤلفون XGBoost، وهي طريقة تعلم آلي شائعة تبني تراكمية من أشجار القرار، لإنتاج التنبؤ النهائي. بدلاً من ضبط إعداداتها العديدة يدوياً، اعتمدوا على Optuna، نظام بحث آلي يجرب تركيبات مختلفة من معاملات النموذج ويحتفظ بتلك التي تحسن الأداء. قارنوا عدة نسخ: XGBoost القياسي، XGBoost مع طرق توازن أبسط، وخط أنابيب GAN-XO الكامل مع وإزالة القيم المتطرفة أو بدونها. في المسح الأمريكي الكبير، حقق نظام GAN-XO الكامل نحو دقة 96.6% ودرجة F1 عالية مماثلة، متفوقاً على طرق منشورة سابقاً. وبالمثل، أدى حذف القيم المتطرفة إلى تقليل الفجوة بين نتائج التدريب والاختبار، مما يدل على أن النموذج كان يتعلم أنماطاً حقيقية بدلاً من حفظ الضوضاء.
جعل التنبؤات السوداء أكثر قابلية للفهم
نظراً لأن القرارات الطبية يجب أن تكون قابلة للتفسير، درس المؤلفون أيضاً كيفية وصول النموذج إلى استنتاجاته. استخدموا أداتين شعبيتين للتفسير، SHAP وLIME، لإظهار العوامل التي دفعت التنبؤات نحو «مرض القلب» أو «عدم وجود مرض القلب» على مستوى مجموعات المرضى والحالات الفردية. عند التدريب على بيانات ما تزال تحتوي على قيم متطرفة، كانت تفسيرات النموذج غير مستقرة وأحياناً تعتمد على تراكيب غريبة من السمات. بعد التنقية، أصبح وضوح وتناسق أهمية عوامل الخطر المألوفة — مثل العمر، الصحة العامة، وزن الجسم، التدخين، والسابق للإصابة بسكتة أو بالسكري — أفضل بكثير. وقد منح ذلك ثقة أكبر بأن منطق النموذج يتوافق مع الفهم السريري وليس مجرد خواص إحصائية غريبة.
ماذا يعني هذا للمرضى والأطباء
بعبارات بسيطة، تُظهر هذه الدراسة أن تحسين التنبؤ بأمراض القلب يعتمد بقدر أهمية الخوارزميات المتقدمة على تعامل دقيق مع البيانات. من خلال تعليم نظام ذكاء اصطناعي أولاً "تخيل" مزيد من المرضى الواقعيين عاليي المخاطر، ثم تصفيه السجلات غير المعقولة بشكل صارم، وأخيراً ضبط محرك تنبؤ قوي، يوفر إطار GAN-XO دقة عالية ونتائج أكثر قابلية للتفسير. للمرضى، قد يعني ذلك تحذيرات أبكر وأكثر موثوقية استناداً إلى معلومات صحية روتينية؛ ولأطباء، يقدم أداة تعكس خياراتها منطقاً طبياً حقيقياً بشكل أفضل. يجادل المؤلفون بأن هذا المزيج من ضبط جودة البيانات، التوليف الذكي، والتنبؤ الشفاف هو نموذج واعد لأنظمة الذكاء الاصطناعي المستقبلية في الرعاية الصحية.
الاستشهاد: Begum, S.S., Swamy, A., Dhanka, S. et al. Generative adversarial networks and hyperparameter-optimized XGBoost for enhanced heart disease prediction. Sci Rep 16, 11326 (2026). https://doi.org/10.1038/s41598-026-40322-y
الكلمات المفتاحية: التنبؤ بأمراض القلب, التعلم الآلي الطبي, البيانات الصحية التركيبية, جودة البيانات والقيم المتطرفة, نمذجة XGBoost