Clear Sky Science · ar
تدريب نموذج لغة جينومية مع الطفرات لتحسين نمذجة علم الجينوم الوظيفي
تعليم الحواسيب قراءة لغة الحمض النووي
يحمل حمض كل شخص النووي ملايين الاختلافات الصغيرة، أو الطفرات، التي تساهم في تشكيل كل شيء من الطول إلى مخاطر الإصابة بالأمراض. يعلم العلماء أن العديد من هذه الطفرات تؤثر في مدى تشغيل الجينات أو إيقافها، لكن ربط حروف الحمض النووي بنشاط الجينات كان صعبًا. تقدم هذه الدراسة نماذج ذكاء اصطناعي جديدة تتعامل مع الحمض النووي كلغة، مستخدمة أنماط الطفرات المراقبة في مئات الآلاف من الأشخاص لتحسين التنبؤ بكيفية تصرّف الجينات في خلاياٍ وأفرادٍ محددين.

لماذا يمكن معاملة الحمض النووي كلغة بشرية
تمامًا كما أن الكلمات تكتسب معانٍ مختلفة اعتمادًا على الجملة المحيطة، يمكن لقطع من الحمض النووي أن تؤدي أدوارًا مختلفة بحسب «السياق» الجينومي. قد تقع مناطق التنظيم بعيدة عن الجينات التي تتحكم فيها، وقد يساهم نفس مقطع الحمض النووي في عدة وظائف بيولوجية. يبني المؤلفون على الفكرة القائلة إن هذه الأنماط طويلة المدى تشبه تعدد المعاني والاعتماد على السياق الموجود في اللغة الطبيعية. باستخدام معماريات الشبكات العصبية المطورة أصلاً للنصوص، يهدفون إلى تعلم كيفية تشكيل «قواعد» الحمض النووي والتباين الجيني البشري معًا لوظيفة الجين وتعبيره.
بناء نموذج لغة جينومية من التباين البشري الحقيقي
أنشأ الباحثون UKBioBERT، وهو نموذج لغة للحمض النووي تم تدريبه على كل من الجينوم المرجعي البشري وأكثر من 13 مليون طفرات مأخوذة من نحو 300,000 مشارك في UK Biobank. أثناء التدريب، يُعرض على النموذج تسلسلات حمض نووي معدلة حيث يتم إخفاء بعض القواعد ويجب تخمينها من السياق، مشابه لملء كلمات مفقودة في جملة. تجبر هذه العملية ذاتية الإشراف النموذج على استيعاب أي أنماط تسلسل تميل إلى الترافق وكيفية تغيير الطفرات لتلك الأنماط. ثم يختبر الفريق التمثيلات الداخلية للنموذج بسؤال ما إذا كانت تسلسلات الجينات ذات الوظائف المعروفة المتشابهة تقع قريبة من بعضها في هذه المساحة المتعلمة. عبر عدة مقاييس عن العنقدة، يفصل UKBioBERT وظائف الجينات بوضوح أكبر من النماذج الجينومية السابقة، دون أن يُخبر بأي من تلك الوظائف أثناء التدريب.
من أنماط التسلسل إلى نشاط الجينات في الخلايا والأشخاص
تعلم «لغة» الحمض النووي مفيد فقط إذا ساعد في تفسير البيولوجيا الحقيقية، وخصوصًا تعبير الجينات—المستوى الذي تُشغَّل عنده الجينات في أنواع خلايا مختلفة والأفراد. يوصّل المؤلفون تمثيلات التسلسل من UKBioBERT إلى أطر تعلم عميق موجودة تتنبأ بنشاط الجين من الحمض النووي. على مستوى خطوط الخلايا، يعززون معمارية تُدعى EPInformer، التي تجمع بالفعل بين تسلسلات المحفز والمُعزِّز مع إشارات ما فوق الجينات. إضافة تمثيلات UKBioBERT للحمض النووي ووصف نصي منفصل لوظائف الجينات يؤدي إلى تنبؤات أدق لتعبير الجينات في عدة خطوط خلوية بشرية، مع معاملات ارتباط أعلى بين القيم المتوقعة والمراقبة وأداء أكثر استقرارًا عبر تقسيمات التحقق المتقاطع.
تنبؤات مخصصة وما الذي يجعل الجين قابلًا للتنبؤ
يتجه الفريق بعد ذلك إلى مهمة أصعب: التنبؤ بتعبير الجينات لأشخاص محددين اعتمادًا فقط على تسلسل جينومهم الكامل. يستخدمون أولًا تمثيلات UKBioBERT مع طريقة إحصائية تقليدية لتوقع التعبير لـ41 جينًا ممثلاً في مجموعة GTEx. الأداء ينافس أو يتأخر قليلًا عن الأساسات القوية التي تستخدم ميزات جينية مصممة يدويًا، ويتفوق بكثير على نموذج تسلسلي لم يخضع لتخصيص. ومن المثير للاهتمام أن الجينات تختلف اختلافًا واسعًا في مدى قابلية تعبيرها للتنبؤ. لا يشرح هذا التباين جيدًا مقاييس قياسية مثل الوراثية. بدلًا من ذلك، تميل الجينات التي تقع مستويات تعبيرها طبيعيًا في مجموعات أو عنقدات أوضح عبر الأفراد—وهي أنماط يمكن لتمثيلات UKBioBERT التقاطها—إلى أن تكون أكثر قابلية للتنبؤ. الجينات المشاركة في العديد من الوظائف البيولوجية تكون أصعب في التنبؤ من التسلسل وحده.

دمج النماذج لتنبؤات فردية أقوى
لدفع التنبؤ المخصص أبعد، يدمج المؤلفون UKBioBERT مع نماذج قوية لتحويل التسلسل إلى وظيفة مثل Enformer وBorzoi، مكونين UKBioFormer وUKBioZoi. تجمع هذه الهجينات بين نمذجة التسلسل طويلة المدى و«تمثيلات واعية بالطفرات» وتخضع لتخصيص فعال باستخدام تقنيات حفظ المعاملات. عبر مجموعة الجينات نفسها، يتفوق UKBioFormer في كثير من الأحيان على كل من أفضل نموذج عميق سابق (Performer) والأساليب الإحصائية التقليدية للجينات التي يكون تعبيرها قابلًا للتنبؤ بشكل معقول. كما يظهر تعميمًا محسنًا عند تطبيق نماذج مدربة على أشخاص من أصل أوروبي على أفراد أمريكيين من أصول أفريقية، ما يشير إلى أن التعلم من التسلسل الخام بالإضافة إلى طفرات السكان يلتقط بعض المنطق التنظيمي المشترك عبر المجموعات.
رؤية كيف تغيّر الطفرات المفردة نشاط الجين
بما أن UKBioFormer شبكة عصبية، فإنه يمكن استجوابُه لكشف كيف تؤثر الطفرات الفردية في تنبؤاته. يستخدم المؤلفون طرقًا قائمة على التدرج وتجارب طفرات افتراضية لتقدير كيف يغير استبدال قواعد محددة التعبير المتوقع. بالنسبة لعدة جينات، بما في ذلك جين يدعى JUP، يستنتج النموذج بشكل صحيح اتجاه وحجم التأثيرات التقريبي لغالبية الطفرات التنظيمية المعروفة (eQTLs)، بما في ذلك بعض الطفرات النادرة. كما يبرز نماذج تسلسلية محلية حول هذه الطفرات تتوافق مع أنماط ربط معروفة لبروتينات تنظيمية. هذا يبيّن أن النموذج لا يكتفي بمطابقة مستويات التعبير العامة، بل يتعلم روابط ميكانيكية بين وزخارف التسلسل والطفرات وتنظيم الجينات.
ماذا يعني هذا العمل لعلم الجينوم والطب
تُظهر هذه الدراسة أن تدريب نماذج لغة جينومية مباشرة على مجموعات كبيرة من الطفرات البشرية يُنتج تمثيلات أغنى للحمض النووي تحسّن من تنبؤ تعبير الجينات وتفسير الطفرات. وعلى الرغم من أن ليس كل جين يمكن التنبؤ بتعبيره من التسلسل وحده، فإن إطار العمل المدمج UKBioBERT–UKBioFormer يعمل بشكل جيد خصيصًا للجينات التي تتمتع بأنماط تعبير منظمة ومُحفَّزة بالطفرات. كما يوفر وسيلة عملية لاستكشاف الطفرات الأكثر احتمالًا في تعديل نشاط الجين قبل إجراء تجارب مكلفة. ومع تزايد تنوع المجموعات البيانات وتحسن طرق التدريب متعدد الجينات، قد تصبح مثل هذه النماذج أدوات مهمة لربط الجينومات الشخصية بالسمات الجزيئية وفي النهاية لتوجيه البحوث المتعلقة بالأمراض المتأثرة جينيًا.
الاستشهاد: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4
الكلمات المفتاحية: نماذج لغة جينومية, تنبؤ تعبير الجينات, الطفرات الجينية, علم الجينوم الوظيفي, UK Biobank