Clear Sky Science · ar
التنبؤ بالتوطين تحت الخلوي للـ circRNA عبر دمج تسلسل circRNA ومعلومات الشبكة
لماذا تهم الحلقات الرفاعية الصغيرة وعناوينها
داخل كل خلية بشرية، تتحرك أعداد هائلة من جزيئات الحمض النووي الرفاعي، مساعدةً في التحكم في تشغيل أو إطفاء الجينات. من بينها توجد الحمضيات الرفاعية الدائرية، أو circRNAs—قطع غريبة الشكل على شكل حلقة تتميز باستقرار مفاجئ وترتبط ارتباطًا وثيقًا بالعديد من الأمراض، بما في ذلك السرطانات. لفهم وظائف هذه الجزيئات، يحتاج العلماء إلى معرفة حقيقة أساسية: أين تقيم داخل الخلية. مع ذلك، فإن رسم "عناوين" الـ circRNAs بتجارب مخبرية تقليدية بطيء ومكلف وغير مكتمل. تقدم هذه الدراسة طريقة حاسوبية جديدة تُدعى CircLoc تتنبأ بمواقع الـ circRNAs داخل الخلايا من خلال دمج معلومات من تسلسلها ومن الشبكات البيولوجية المعقدة التي تشارك فيها.

حلقات صغيرة بأدوار بيولوجية كبيرة
كان يُنظر إلى الـ circRNAs سابقًا على أنها بقايا غير ضارة من معالجة الجينات، لكن ثبت الآن أنها تؤثر في مجموعة من العمليات الحيوية، من تمايز الخلايا إلى تنظيم الجينات. شكلها الدائري يجعلها أكثر استقرارًا من العديد من أنواع الحمض النووي الرفاعي الأخرى، مما يجعلها جذابة كمؤشرات حيوية محتملة لتشخيص الأمراض. يمكن للـ circRNAs أن ترتبط بالبروتينات وتمتص الميكروRNAs—منظمات صغيرة تخفف نشاط الجينات—مما يعيد تشكيل سلوك الخلية. وبما أن العديد من الجزيئات تعمل في أجزاء محددة من الخلية فقط، مثل النواة أو السيتوبلازم أو الأغشية، فإن معرفة الموقع تحت الخلوي للـ circRNA يوفر دلائل مهمة على وظيفته ودوره المحتمل في الصحة والمرض.
تحويل بيانات متناثرة إلى أرضية تدريب
بدأ المؤلفون بتجميع مجموعة مُنقَّحة بعناية من circRNAs البشرية ذات مواقع معروفة من عدة قواعد بيانات عامة. بعد استبعاد الفئات النادرة والمجموعات غير المتوازنة للغاية، ركزوا على سبع مناطق خلوية رئيسية، بما في ذلك النواة، النوية، النواة اليسارية، السيتوبلازم، السيتوسول، الكروماتين، والأغشية. جمعوا في المجموع 1,486 circRNAs بمعلومات تسلسل موثوقة وعلى الأقل موقع واحد معروف؛ انتمت كثير منها إلى عدة مناطق في آن واحد، مما جعل المهمة مشكلة تنبؤ متعددة الوسوم حقيقية. وُضعت مجموعات بيانات إضافية من نسخ سابقة من القواعد ومن مجموعة كبيرة مرتبطة بالسرطان جانبًا كاختبارات مستقلة، مما أتاح للفريق فحص قدرة النموذج على التعميم إلى circRNAs المبلّغ عنها لاحقًا.
مزج أنماط التسلسل مع خرائط التفاعل الخلوية
الفكرة الأساسية في CircLoc هي أن "عنوان" الـ circRNA يتشكل ليس فقط بواسطة تسلسله الخاص، بل أيضًا بواسطة زملائه. على جانب التسلسل، ينظر النموذج إلى شظايا تسلسل قصيرة (k-mers ومتمماتها العكسية) وإلى أنماط أغنى يتعلمها نموذج لغوي موجه للـ RNA اسمه RNAErnie، الذي درب أصلاً على مجموعات بيانات RNA ضخمة لالتقاط الانتظامات الدقيقة. وعلى جانب الشبكة، بنى المؤلفون عدة خرائط تُظهر كيف ترتبط الـ circRNAs ببعضها وبكيانات بيولوجية ذات صلة: التسلسلات المتداخلة، الأمراض المرتبطة، استجابات الأدوية، الميكروRNAs المتفاعلة، والبروتينات الرابطة. أداة تضمين الشبكة node2vec تحول بنية كل خريطة إلى سمات رقمية، ثم يقوم مُشفِّر تلقائي بياني مع انتباه (GATE) بتنقيحها عن طريق التأكيد على الاتصالات بين circRNAs التي تتصرف بشكل مشابه، فعليًا لتنقية وإغناء الإشارات المشتقة من الشبكة.

ترك القرار للنموذج ليحدد ما الأهم
تُجمَع كل هذه السمات القائمة على التسلسل والشبكة في ملف شخصي واحد لكل circRNA وتمر عبر طبقة انتباه ذاتي، وهي آلية تتيح للنموذج تعلم أي توليفات من السمات ينبغي أن تؤثر في قراراته بأكبر قدر. ثم تدخل الملفات المنقّحة شبكة عصبية عميقة مترابطة تمامًا تخرج احتمالًا لكل من المواقع السبعة المحتملة. ضبط المؤلفون إعدادات النموذج الكثيرة باستخدام تحقق متقاطع بعشر طيات، وهو إجراء صارم يقسم البيانات مرارًا إلى أجزاء تدريب واختبار. حقق CircLoc نتيجة متوسطة نحو 0.79 على مقياس جودة قياسي (AUC)، متفوقًا بوضوح على النهج السابقة المصممة للميكروRNAs والأساليب الكلاسيكية متعددة الوسوم المدربة على نفس السمات. أظهرت تجارب أُزيلت فيها سمات أو وحدات محددة أن معلومات الشبكة وتنقية GATE كانتا بالأخص مهمتين، بينما كانت سمات التسلسل لا تزال تضيف تحسينات مفيدة وإن كانت أصغر.
ما مدى قدرة النموذج على التعامل مع circRNAs جديدة؟
لاختبار الفائدة العملية، درّب الفريق CircLoc على إصدار واحد من قاعدة بيانات التوطين واختبره على circRNAs ظهرت فقط في إصدار لاحق، وكذلك على مورد منفصل يركز على السرطان. تراجع الأداء مقارنة بمجموعة التدريب الأصلية، كما هو متوقع عند مواجهة بيانات جديدة حقيقية من مصادر مختلفة، لكنه ظل محترمًا: انخفضت الدرجات المتوسطة بشكل طفيف مع بقاء قوة تنبؤية ذات مغزى. تشير هذه الاختبارات، إلى جانب المقارنات مع طرق أخرى، إلى أن CircLoc يمكن أن يوفر تخمينات مبدئية معقولة لمواقع circRNAs المكتشفة حديثًا، حتى عندما تكون بعض المعلومات الداعمة—مثل الارتباطات التفصيلية بالأمراض أو الأدوية—مفقودة.
ماذا يعني هذا لبحوث الـ RNA المستقبلية
تُظهر هذه الدراسة أن دمج معلومات التسلسل المباشرة مع شبكات التفاعل الغنية يمكن أن يساعد النماذج الحاسوبية في توقع أماكن تواجد الـ circRNAs داخل الخلية. بالنسبة للبيولوجيين التجريبيين، يقدم CircLoc وسيلة لترتيب أولويات أي circRNAs ينبغي دراستها في أي مقصورات خلوية، مما قد يوفر الوقت والموارد. وبينما لا يمكن للطريقة أن تحل محال القياسات المخبرية بعد، ويشير منشئوها إلى قيود مثل البيانات غير المكتملة والأداء المحدود على بعض مجموعات الاختبار، فإنها تمثل خطوة مهمة نحو "دفاتر عناوين" حاسوبية واسعة النطاق لجزيئات RNA. ومع نمو قواعد البيانات وتحسن تقنيات النمذجة، قد تصبح مثل هذه الأدوات رفيقًا روتينيًا للتجارب، موجهة البحث عن circRNAs الأكثر أهمية في المرض والعلاج.
الاستشهاد: Chen, L., Hu, J. & Zhou, B. Predicting circRNA subcellular localization by fusing circRNA sequence and network information. Sci Rep 16, 12775 (2026). https://doi.org/10.1038/s41598-026-43808-x
الكلمات المفتاحية: الحمض النووي الرفاعي الدائري, التوطين تحت الخلوي, علم الأحياء الحاسوبي, تعلم الآلة, شبكات الحمض النووي الرفاعي