Clear Sky Science · ar

نموذج لغوي جيني يقلل من التحف الشيميرية في تسلسل RNA المباشر بتقنية النانوبور

· العودة إلى الفهرس

لماذا يهم تنقية قراءات الـ RNA

تقرأ خلايانا باستمرار التعليمات الوراثية المكتوبة على شكل RNA، وتتيح تقنيات التسلسل الحديثة الآن للعلماء مراقبة هذه العملية بتفصيل غير مسبوق. إحدى أقوى الأدوات، تسلسل الـ RNA المباشر بتقنية النانوبور، يمكنها قراءة جزيئات الـ RNA كاملة دفعة واحدة—لكنها قد تقدم أيضًا أخطاء تجعل بعض الجينات تبدو مكسورة ومُعاد تجميعها بطرق لا تحدث في الواقع. تقدم هذه الدراسة أداة برمجية تُدعى DeepChopper تعمل كأنها نموذج لغوي للجينوم، تنظف هذه الأخطاء حتى يتمكن الباحثون من الوثوق بما يرونه في بيانات الـ RNA.

عندما يخترع جهاز التسلسل مزائج جينية وهمية

تسحب آلات النانوبور الحديثة خيوط RNA الفردية عبر مسام دقيقة وتقرأ تسلسلها مباشرة. لهذا مميزات كبيرة مقارنة بالطرق القديمة، مثل الحفاظ على التعديلات الكيميائية والتقاط النسخ الكاملة في قراءة واحدة. لكن العملية تعتمد أيضًا على قطع مساعدة قصيرة تسمى المحولات (adapters) التي تُلصق بجزيئات الـ RNA أثناء تحضير المكتبة. أحيانًا تُلتحم جزيئتا RNA أو أكثر عن طريق هذه المحولات عن طريق الخطأ، مكوِّنة ما يبدو كـ chimera—جزيئات هجينة تبدو كأنها تدمج جينات مختلفة. يمكن لأدوات التحليل القياسية أن تفسر بقايا تقنية من هذا النوع باعتبارها أحداثًا بيولوجية حقيقية، مثل دمج جيني مرتبط بالسرطان أو أنماط اقتطاع غير عادية، مما يؤدي إلى نتائج مضللة.

Figure 1
Figure 1.

نموذج لغوي يقرأ الجينومات لا الجمل

يتعامل DeepChopper مع التسلسلات الجينية بشكل يشبه النص ويطبق أفكارًا من نماذج اللغة الكبيرة عليها. بدلاً من الكلمات، يقرأ تسلسلات الـ RNA حرفًا بحرف، مصحوبة بدرجة جودة لكل حرف تشير إلى مدى موثوقية القراءة. مبني على بنية مدمجة تسمى HyenaDNA، يمكنه فحص ما يصل إلى 32,000 قاعدة مرة واحدة—طول يكفي لتغطية أي جزيء RNA بشري تقريبًا. لكل موضع مفرد، يقدّر DeepChopper ما إذا كانت القاعدة جزءًا من تسلسل RNA حقيقي أم من محول. ثم تُطبق خطوة تنعيم لتحسين هذه التنبؤات بحيث تُوَسَم المحولات ككتل متصلة بدلًا من بقع متفرقة.

اقتطاع اللحامات الخاطئة دون فقدان البيانات

بمجرد أن يكتشف DeepChopper المحولات داخل القراءة، يفعل أمرًا حاسمًا: بدلًا من حذف القراءة بالكامل، «يقطع» عند مواقع المحولات ويحافظ على القطع الحقيقية. بهذه الطريقة، يمكن فصل دمج مصطنع لاثنين من جزيئات الـ RNA إلى أجزائه الأصلية. في اختبارات على ملايين قراءات النانوبور من عدة خطوط خلوية سرطانية وخلايا جذعية، تفوق DeepChopper بشكل كبير على أدوات تقليم المحولات الحالية، التي لم تُصمم أبدًا لبيئة الـ RNA المباشر هذه. تعرف على المحولات بدقة واستدعاء تزيد عن 99% في مقاييس اختبار تركيبية، ويمكنه التوسع بكفاءة لمجموعات بيانات تزيد عن 20 مليون قراءة باستخدام وحدات معالجة رسومية.

فصل حالات دمج الجينات الحقيقية عن سراب التسلسل

سأل الباحثون بعد ذلك ما إذا كان DeepChopper يمكنه التمييز بين الأحداث البيولوجية الحقيقية والتحف في بيانات سرطانية فعلية. بمقارنة قراءات الـ RNA المباشرة مع مجموعات بيانات مطابقة أُنتجت بطرق مستقلة (مثل تسلسل cDNA المباشر على منصتي Oxford Nanopore وPacBio)، تمكنوا من وسم أي من الظواهر الشيميرية المدعاة مدعومة بواسطة تقنيات أخرى وأيها غير مدعوم. خفض DeepChopper محاذاة الشيميرات غير المدعومة بنسبة تتراوح بين 62–91%، مع تعزيز كبير في نسبة الحالات التي أكدتها طرق أخرى. كما خفّض عدد نداءات دمج الجينات المريبة بنحو 90% تقريبًا، خاصة تلك التي تشمل جينات الريبوسوم التي تبين أنها تحف متكررة. وفي الوقت نفسه، حافظ على أحداث الدمج الحقيقية المدعومة بتسلسل الـ RNA القصير.

Figure 2
Figure 2.

تحسين الكيميا يساعد—لكن التحف تبقى

أطلقت شركة Oxford Nanopore مؤخرًا مجموعة كيمياوية محدثة (RNA004) صُممت جزئيًا لتقليل التحف التقنية. طُبق DeepChopper مبدئيًا «خارج الصندوق» على بيانات من هذه الكيميا الجديدة وما زال يكتشف أن جزءًا صغيرًا لكنه مهمًا من القراءات يحتوي على محولات داخلية ولحامات شيمرية. حتى بدون تدريب إضافي، قلل النموذج الشيميرات التحفّية بحوالي خمس؛ وبعد الضبط الدقيق على البيانات الجديدة، تحسن الأداء قليلًا، مع الحفاظ على الإشارات الحقيقية دون مساس. عبر جميع الكيميا وأنواع الخلايا، سمح تصحيح هذه التحف للأدوات التالية باكتشاف مزيد من النسخ الكاملة والنسخ البديلة، مما أعطى صورة أوضح لمنظومة الـ RNA داخل الخلية.

ماذا يعني هذا لدراسات الـ RNA المستقبلية

للغير متخصصين، الرسالة الأساسية هي أن ليست كل وصلة RNA المفاجئة التي يُبلغ عنها جهاز التسلسل تمثل بيولوجيا حقيقية—بعضها أخطاء تركيبية أدخلتها التقنية نفسها. يعمل DeepChopper كمحرر نسخ مُدرب بدرجة عالية لبيانات الـ RNA بالنانوبور، يكتشف تسلسلات المحولات المميزة التي تربط جزيئات غير مرتبطة ويقصّها بدقة على مستوى قاعدة واحدة. النتيجة خرائط أنظف وأكثر موثوقية للجزيئات الـ RNA الموجودة في الخلية وكيفية تجميعها. ومع اعتماد المختبرات المتزايد على تسلسل الـ RNA طويل القراءة لدراسة السرطان واضطرابات الدماغ وأمراض معقدة أخرى، ستصبح أدوات مثل DeepChopper ضرورية لتحويل القراءات الأولية الصاخبة إلى رؤى بيولوجية موثوقة.

الاستشهاد: Li, Y., Wang, TY., Guo, Q. et al. Genomic language model mitigates chimera artifacts in nanopore direct RNA sequencing. Nat Commun 17, 1864 (2026). https://doi.org/10.1038/s41467-026-68571-5

الكلمات المفتاحية: تسلسل RNA بالنانوبور, قراءات شيمرية, تحف دمج الجينات, نموذج لغوي جيني, DeepChopper