Clear Sky Science · ar

تحسين اختيار الميزات في بيانات الميكروأراي لسرطان باستخدام إطار تطوري مدفوع بالـ heap للمساحات عالية الأبعاد

· العودة إلى الفهرس

لماذا يهم اختيار الجينات المناسبة

اختبارات السرطان المبنية على تقنيات جينية حديثة قادرة على قياس عشرات الآلاف من الجينات دفعة واحدة، لكن الأطباء غالباً ما يملكون بيانات من عدد قليل فقط من المرضى. مخبأة داخل هذه "الغابة الجينية" الشاسعة توجد إشارات أقل بكثير لكنها هي ما يميز فعلاً نوع سرطان عن آخر، أو الورم عن الأنسجة السليمة. تعرض هذه الورقة طريقة بحث ذكية جديدة لاختيار تلك الجينات الأساسية تلقائياً، بهدف جعل التشخيص بمساعدة الحاسوب أكثر دقة وأسرع وأسهل في التفسير.

إشارات كثيرة وبيانات قليلة

تُتيح تجارب الميكروأراي وتقنيات مماثلة للباحثين قياس مستويات النشاط لآلاف الجينات في كل عينة مريض. ومع ذلك، عادة ما يكون عدد العينات صغيراً جداً، أحياناً أقل من مئة. الكثير من قراءات الجينات هذه يكون متشابهاً، أو ضوضائياً، أو غير متعلق بالمرض المعني. الاحتفاظ بها كلها قد يربك خوارزميات التعلم، ويبطئ العمليات الحسابية، ويؤدي إلى نماذج مضللة تتمسك بصدف عشوائية بدلاً من البيولوجيا الحقيقية. عملية تقليص هذا إلى مجموعة فرعية مفيدة تسمى «اختيار الميزات»، وهي حاسمة إذا أردنا تنبؤات موثوقة من بيانات طبية عالية الأبعاد.

Figure 1
شكل 1.

استراتيجية بحث مستوحاة من السلم الوظيفي في الشركات

يبني المؤلفون على نهج تحسين حديث يسمى المحسّن المعتمد على الـ Heap (HBO)، الذي يستعير أفكاراً من كيفية تنظيم الموظفين في الشركات. تخيل كل مجموعة ممكنة من الجينات كـ "موظف" يتم تقييم أدائه الوظيفي بحسب مدى مساعدته لمصنف على تمييز عينات السرطان عن السليمة. تُرتب هذه الموظفين في تسلسل هرمي، مثل سلم وظيفي، باستخدام بنية بيانات تعرف باسم heap. مجموعات الجينات ذات الأداء العالي تجلس قرب القمة، بينما الأضعف تكون في الأسفل. على مدى جولات عديدة، يُعدل الموظفون ذو الرتب الأدنى اختياراتهم عن طريق نسخ وتعديل طفيف لما يفعله رؤساؤهم وزملاؤهم، مما يدفع المنظمة تدريجياً نحو حلول أفضل.

تحويل بيانات الجينات الخام إلى أنماط أوضح

لجعل البحث أكثر فاعلية، لا يعتمد المؤلفون على قراءات الجينات الخام وحدها. أولاً يعيدون تشكيل بيانات الميكروأراي إلى شكل شبيه بالصورة ويطبقون تقنية تسمى مخطط المدرجات للتدرجات الموجهة (Histogram of Oriented Gradients - HOG)، المستخدمة على نطاق واسع في رؤية الحاسوب. يلتقط HOG كيف تتغير مستويات التعبير عبر الجينات، مبرزاً الأنماط المحلية بدلاً من القياسات المعزولة. تُدمج هذه الميزات المعتمدة على الأنماط مع المعلومات الجينية الأصلية. يخدم مصنف بسيط يسمى الجار الأقرب (KNN) كـ "قاضٍ"، يقيم كل مجموعة جينات مرشحة بحسب مدى دقتها في تصنيف عينات جديدة مع مكافأة للمجموعات الأصغر والأكثر ضغطاً.

Figure 2
شكل 2.

الاختبار على مجموعات بيانات سرطانية متعددة

قيّم الباحثون النسخة الثنائية من المحسّن المعتمد على الـ Heap (BHBO) على تسع مجموعات بيانات ميكروأراي سرطانية عامة، بما في ذلك أورام الدماغ واللوكيميا وسرطان البروستاتا ومجموعات أورام مختلطة بعدة أنماط فرعية. احتوت كل مجموعة بيانات على آلاف إلى أكثر من خمسة عشر ألف جين مقاس لكن عينات المرضى كانت قليلة نسبياً. لكل مجموعة بيانات، شُغّل BHBO مراراً وقورن مع سبع طرق بحث معروفة، مثل الخوارزميات الجينية وتحريك أسراب الجسيمات. قيست الفريق ليس فقط من حيث الدقة، بل أيضاً عدد الجينات المحتفظ بها، وسرعة تراكم البحث، واستقرار النتائج عند تشويش البيانات بمحاكاة الضوضاء، وتأثير الدُفعات، وأخطاء الوسم.

ما حققته الطريقة الجديدة

عبر المجموعات التسع، وصل النهج المدفوع بالـ heap إلى متوسط دقة تصنيف يقارب 95 في المئة مع تقليل عدد الجينات بأكثر من 85 في المئة. تفوق بوضوح على الطرق المنافسة في عدة مجموعات بيانات وأظهر تقارباً أسرع، مما يعني أنه ركّز على مجموعات جينات جيدة في عدد خطوات بحث أقل. حتى عندما أجرى المؤلفون تلوثاً متعمداً للبيانات — بإضافة ضوضاء أو قلب وسم بعض العينات — انخفض أداء الطريقة بدرجة طفيفة وظل أفضل من البدائل. أكدت الاختبارات الإحصائية أن هذه المكاسب من غير المرجح أن تكون ناتجة عن الصدفة.

ماذا يعني هذا لمستقبل تشخيصات السرطان

من منظور عملي، تُظهر هذه الدراسة أن استراتيجية بحث مصممة بعناية قادرة على غربلة مجموعات بيانات وراثية ضخمة وكشف لوحات صغيرة وغنية بالمعلومات من الجينات التي تظل تصنف السرطانات بشكل جيد. بالنسبة للأطباء والباحثين، تكون مجموعات الجينات المدمجة هذه أسهل في التحقق البيولوجي، وأرخص للاختبار في المتابعات، وأكثر ملاءمة للدمج في أدوات دعم القرار. وبينما لا تكتشف الطريقة مباشرة أدوية أو مسارات جديدة، فإنها تسلط ضوءاً أكثر وضوحاً على العلامات الجينية الواعدة، مما يساعد دراسات أخرى على التركيز على الإشارات الأكثر إفادة المختبئة في بيانات السرطان عالية الأبعاد.

الاستشهاد: Alweshah, M., Jebril, H., Kassaymeh, S. et al. Optimizing feature selection in cancer microarray data using a heap-driven evolutionary framework for high-dimensional spaces. Sci Rep 16, 6726 (2026). https://doi.org/10.1038/s41598-026-37803-5

الكلمات المفتاحية: ميكروأراي السرطان, اختيار الميزات, تحسين ميتاهيرستيك, بؤر الجينات البيولوجية, تنقيب البيانات الطبية