Clear Sky Science · ar

شبكة الاحتفاظ تعزز نمذجة لغة الحمض النووي الريبي الفعّالة للتسلسلات الطويلة

· العودة إلى الفهرس

تعليم الحواسيب قراءة رسائل الحمض النووي الريبي للحياة

كل خلية في جسمك مليئة بالحمض النووي الريبي، الجزيء الذي يساعد على تحويل التعليمات الوراثية إلى مادة حية. لكن علماء البيولوجيا اليوم يواجهون فيضاناً من بيانات الحمض النووي الريبي لا يستطيع إنسان قراءتها سطراً بسطر. تقدم هذه الورقة RNAret، نموذج ذكاء اصطناعي مدمج «يقرأ» تسلسلات الحمض النووي الريبي بطريقة تشبه اللغة ويمكنه معالجة امتدادات طويلة للغاية من النص الوراثي. هدفه الكشف عن أنماط مخفية تكشف كيف يطوي الحمض النووي الريبي نفسه، وكيف يتفاعل، وكيف يميز المخططات العاملة عن الضوضاء الخلفية — وكل ذلك مع استخدام طاقة حوسبة أقل بكثير من الأدوات الحالية.

طريقة جديدة لرؤية الأنماط في الحمض النووي الريبي

يبنى RNAret على تصميم ذكاء اصطناعي ناشئ يسمى شبكة الاحتفاظ، اقترح أصلاً كخليفة للمحوّلات، المحركات وراء نماذج اللغة الكبيرة للنص البشري. بدلاً من مقارنة كل موضع في التسلسل مع كل موضع آخر — خطوة تصبح مكلفة جداً للسلاسل الطويلة — تتيح فكرة الاحتفاظ للنموذج «الاحتفاظ» بالمعلومات المهمة أثناء التقدم على طول التسلسل، بتكلفة تنمو فقط بتناسب مباشر مع طول التسلسل. تكيف المؤلفون هذه الفكرة في مشفر ينظر في كلا الاتجاهين على طول الحمض النووي الريبي، مما يخلق نموذجاً خفيف الوزن بنحو 12 مليون معلمة يستطيع معالجة آلاف قواعد الحمض النووي الريبي مرة واحدة على وحدة معالجة رسومات بحثية قياسية.

Figure 1
الشكل 1.

التعلم من ملايين تسلسلات الحمض النووي الريبي غير الموسومة

لتعليم RNAret «قواعد» الحمض النووي الريبي، دربه الفريق على ما يقارب 30 مليون تسلسل حمض نووي ريبي غير مشفر من قاعدة بيانات RNAcentral، دون تزويده بأي تسميات حول نوع الحمض النووي الريبي أو وظيفته. استخدموا استراتيجية مستعارة من نمذجة اللغة: إخفاء مقاطع صغيرة من التسلسل وطلب من النموذج تخمين الأجزاء المفقودة. على مدى 600,000 خطوة تدريبية، تعلّم RNAret تدريجياً توقع هذه المقاطع المقنعة، مما يشير إلى أنه يلتقط انتظامات كيفية ترتيب القواعد. عندما نظر الباحثون لاحقاً إلى التمثيلات الداخلية التي ينتجها النموذج، وجدوا أن الحمض النووي الريبي ذي الأدوار والأطوال المماثلة يتجمع طبيعياً في فضاء منخفض الأبعاد، رغم أن النموذج لم يُخبَر قط أي تسلسل ينتمي لأي فئة.

تطبيق النموذج على أسئلة بيولوجية حقيقية

اختبر المؤلفون بعد ذلك ما إذا كانت هذه الأنماط المكتسبة تساعد في حل مشكلات عملية. أولاً، تم ضبط RNAret بدقة ليحكم فيما إذا كان حمض نووي ريبوي تنظيمي قصير يُسمى ميكروRNA يمكنه الارتباط بمنطقة هدف على جزيء RNA أطول. في مقياس معياري يضم أكثر من 27,000 زوج ميكروRNA–mRNA، تفوق الإصدار من RNAret الذي يقرأ مقاطع من خمسة حروف على عدة نماذج لغة RNA أكبر وأداة تعلم عميق متخصصة، محققاً دقة ودرجات F1 عالية. عندما فحص الباحثون «درجات الاحتفاظ» الداخلية للنموذج، رأوا أنه ركز طبيعياً على منطقة «البذرة» في الميكروRNA — المقطع الحاسم المعروف من التجارب بقيادة الارتباط — والجزء المطابق على RNA الهدف، مما يشير إلى أن قرارات النموذج كانت مبنية على أساس بيولوجي حقيقي بدلاً من اختصارات عشوائية.

Figure 2
الشكل 2.

إعادة بناء الأشكال وفرز أنواع الحمض النووي الريبي

بعد ذلك، تحدى الفريق RNAret لتوقع كيفية طي سلاسل RNA المفردة على نفسها إلى هياكل ثانوية. باستخدام مجموعات بيانات معيارية منظفة، أنتج أبسط إصدار من RNAret (يقرأ قاعدة واحدة في كل مرة) خرائط تلامس للأزواج القاعدية كانت غالباً أقرب إلى البنى المعروفة تجريبياً من الأدوات الشائعة للتعلم العميق والنماذج الحرارية، خاصة للحمض النووي الريبي بطول متوسط. مخرجات النموذج، مدموجة بخطوة معالجة لاحقة تفرض قواعد فيزيائية حول أي القواعد يمكن أن تتزاوج، أسفرت عن توقعات أنظف وأقل ضوضاء. في اختبار ثالث، تعلّم RNAret التمييز بين الحمض النووي الريبي المشفر للبروتينات والحمض النووي الريبي الطويل غير المشفر في جينومات الإنسان والفأر. ولأنه يستطيع معالجة النصوص كاملة الطول دون تقطيعها، تعامل جيداً مع التسلسلات الجزئية والطويلة، متفوقاً على طرق إطار القراءة المفتوح الكلاسيكية ومعظم نماذج لغة RNA المنافسة، لا سيما على مجموعة البيانات الكبيرة الخاصة بالإنسان.

سريع، فعّال، وجاهز للنمو

بعيداً عن الدقة، صُمم RNAret ليكون سريعاً. بفضل بنية الاحتفاظ، يعالج النموذج من رتبة مئة ألف وحدة RNA في الثانية أثناء التدريب القبلي على وحدة GPU متقدمة واحدة، ويظل فعالاً حتى عند ضبطه لاحقاً لتنبؤ البنية أو التصنيف. وعلى الرغم من كونه أصغر بكثير من العديد من نماذج اللغة البيولوجية الحديثة، فإنه يحقق أداءً متقدماً أو قريبا من المتقدم على مهام متنوعة. يرى المؤلفون ذلك كدليل مفهومي على أن شبكات الاحتفاظ يمكن أن تكون محركات عملية وقابلة للتفسير لتحليل التسلسلات البيولوجية. مع مزيد من الضبط والامتدادات إلى الحمض النووي والبروتينات، قد يصبح RNAret والنماذج المرتبطة به أدوات يومية لتحويل بيانات التسلسل الخام إلى رؤى حول كيفية تفاعل الجزيئات وطيها وتنفيذ تعليمات الحياة.

الاستشهاد: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

الكلمات المفتاحية: نموذج لغة الحمض النووي الريبي, شبكة الاحتفاظ, تنبؤ بنية الحمض النووي الريبي, تفاعلات الميكروRNA, الحمض النووي الريبي الطويل غير المشفر