تُستخدم اختبارات الدم التي تقيس الأجسام المضادة لدى الأشخاص المصابين بأمراض الأمعاء الالتهابية (IBD) بشكل متزايد للمساعدة في تشخيص الحالة، والتمييز بين داء كرون والتهاب القولون التقرحي، وحتى الإيحاء بكيفية تطور المرض. لكن في الواقع العملي، تفقد الكثير من قياسات الدم هذه لأن العينات قد يصعب جمعها والمرضى قد يصعب متابعتهم على مدى الزمن. يطرح هذا الدراسة سؤالاً يبدو بسيطاً لكنه ذو عواقب كبيرة: عندما تكون قطع أساسية من أحجية اختبارات الدم مفقودة، ما أفضل طريقة لملء الفراغات بحيث يظل الأطباء والباحثون يثقون في نتائجهم؟
ثقوب خفية في بيانات اختبارات الدم
تنتج أمراض الأمعاء الالتهابية، التي تشمل داء كرون والتهاب القولون التقرحي، عن التهاب مزمن في الجهاز الهضمي. أصبحت بعض الأجسام المضادة في الدم — الموجهة ضد الخمائر والبكتيريا وأهداف أخرى — أدلة قوية للكشف عن IBD، والتمييز بين أنواعه الفرعية، وأحياناً التنبؤ بالمرض قبل ظهور الأعراض بسنوات. ومع ذلك، فإن تجميع مجموعات بيانات سيرولوجية كبيرة من آلاف المرضى فوضوي. قد تُفقد عينات، أو يفشل بعض الاختبارات، أو يتغيب المرضى عن الزيارات. الحلول التقليدية السريعة، مثل استبعاد أي مريض توجد لديه قيمة مفقودة، تُهدر معلومات ويمكن أن تُحرّف النتائج، مما يجعل الأمراض تبدو مرتبطة بعلامات معينة أقل أو أكثر مما هي عليه فعلاً.
طرق مختلفة لحدوث البيانات المفقودة
أعاد المؤلفون أولاً بعناية إنشاء الطرق العديدة التي قد تكون بها قيم اختبارات الدم غائبة. في سيناريو واحد، تختفي القيم بشكل عشوائي تماماً، مثل رميات قطعة نقود عبر جدول البيانات. في سيناريو آخر، تعتمد القيم المفقودة على معلومات أخرى نرىها — على سبيل المثال، قد يكون الأشخاص ذوو المرض الأخف أقل احتمالاً لإجراء اختبارات معينة. في السيناريو الأصعب، تعتمد خاصية الفقدان على القيمة نفسها التي لا نراها — على سبيل المثال، من غير المحتمل تسجيل مستويات الأجسام المضادة العالية جداً أو المنخفضة جداً. باستخدام ثلاث مجموعات كبيرة من مرضى IBD، أنشأ الفريق آلاف نسخ من مجموعات بياناتهم بنسب مختلفة من المعلومات المفقودة، بدءاً من 5% فقط وحتى 40% من قيّم اختبارات الدم فارغة.
أدوات حديثة لملء الفراغات
ثم قارنوا عائلات من الأساليب الحاسوبية لملء الفراغات — نهج يعرف بالتعويض (imputation). بعض الطرق، مثل MICE (التعويض المتعدد بواسطة المعادلات المتسلسلة) و"المعوضات التكرارية" المرتبطة بها، تتنبأ مراراً بكل قيمة مفقودة اعتماداً على القيم الأخرى، وتدور حتى يتم ملء الجدول بالكامل. تستخدم طرق أخرى محركات تعلم آلي أكثر مرونة، بما في ذلك الغابات العشوائية، وطرق الجار الأقرب التي تستعير المعلومات من مرضى مشابهين، ونماذج التعلم العميق المسماة التشفير التلقائي والمشفر التلقائي التغايري التي تتعلم ملخصات مضغوطة للبيانات وتُعيد بناء القطع المفقودة من تلك الملخصات. لكل إعداد، أنشأ الباحثون مجموعات بيانات مكتملة متعددة لالتقاط عدم اليقين وقيموا الأداء من ثلاثة جوانب: مدى قرب الأرقام المملوءة من الأصلية، ومدى استعادة الاختبارات الإحصائية القياسية لروابط معروفة بين المرض والأجسام المضادة، ومدى دقة النماذج التنبؤية في تمييز أنواع IBD.
ما الذي يعمل بصورة أفضل في ظروف مختلفة الشكل 1.
لم يبرز أي أسلوب واحد كفائز شامل. عندما كانت نسبة صغيرة فقط من البيانات مفقودة، وكانت الفجوات متسقة إلى حد ما، كانت الطرق التكرارية — خصوصاً تلك المبنية على الانحدار البايزي أو الغابات العشوائية أو الجيران الأقرب — تميل إلى إعطاء أعادة بناء أكثر دقة والحفاظ على قوة الارتباطات المرصودة في البيانات الكاملة. ومع اختفاء المزيد من القيم، خصوصاً تحت أنماط فقدان أصعب، أصبحت طرق التعلم العميق المبنية على التشفير التلقائي أكثر جاذبية. كانت هذه النماذج أفضل في الحفاظ على البنية العامة للبيانات والحفاظ على أداء التنبؤ قرب ما كان يمكن الحصول عليه بمعلومات كاملة. على الصعيد العام، كان استبعاد الحالات الناقصة أداءً أسوأ: إذ أضعف الإشارات، وخفض القدرة الإحصائية، ولم يقدم أي ميزة من حيث التحكم في الأخطاء الإيجابية الكاذبة.
اختيار الأداة المناسبة للمهمة الشكل 2.
الخلاصة العملية للدراسة ليست وصائية بقدر ما هي توجيهية. للمشروعات التي تكون فيها الأولوية هي الاستدلال الإحصائي السليم — مثل تقدير مدى ارتباط أجسام مضادة معينة بداء كرون — فإن الطرق التي تتبع مبادئ التعويض المتعدد، مثل MICE وبعض المعوضات التكرارية، تشكل خياراً أولياً معقولاً. فهي تتوافق جيداً مع قواعد راسخة لدمج النتائج عبر مجموعات البيانات المعوَّضة وتوفر تقديرات عدم يقين معايرة جيداً. بالمقابل، عندما يكون الهدف الرئيسي هو التنبؤ — مثل تدريب نموذج تعلم آلي لتصنيف المرضى — غالباً ما تتألق المعوضات التكرارية والأساليب المبنية على التشفير التلقائي، لا سيما عندما تكون نسبة القيم المفقودة عالية. من خلال إظهار أن طرقاً مختلفة تتفوق عند مستويات فقدان وتحليل مختلفة، يقدم هذا العمل خارطة طريق للباحثين لاختيار استراتيجيات تعويض تحافظ على الإشارة العلمية والنفع السريري لبيانات المصل في IBD.
ما معناه ببساطة
بالنسبة للأشخاص الذين يعيشون مع IBD والأطباء والعلماء المعنيين بهم، الرسالة مطمئنة لكنها متدرجة: حتى عندما تكون سجلات اختبارات الدم مليئة بالثغرات، يمكن للأساليب الحاسوبية المختارة بعناية إعادة بناء ما يكفي من الصورة لجعل التحليلات موثوقة. لا توجد حل واحد يناسب الجميع، لكن هناك أنماطاً واضحة — تعمل الطرق التكرارية الأبسط جيداً عندما تكون البيانات شبه مكتملة، بينما تكون أدوات التعلم العميق الأكثر مرونة أفضل عندما تكون الفجوات أكبر وأكثر تعقيداً. يساعد استخدام هذه الأساليب بدلاً من استبعاد البيانات الناقصة على الحماية من الاستنتاجات المضللة ويدعم تشخيصاً ومراقبة علاجية وبحثية أكثر دقة قائمين على علامات مصلية.
الاستشهاد: Boodaghidizaji, M., McGovern, D.P.B. & Li, D. Imputation methods for serologic biomarkers in inflammatory bowel disease.
Sci Rep16, 11160 (2026). https://doi.org/10.1038/s41598-026-41587-z
الكلمات المفتاحية: أمراض الأمعاء الالتهابية, علامات المصل, البيانات المفقودة, التعويض المتعدد, تعلم الآلة