Clear Sky Science · ar
من سلاسل مفردة إلى مسارات تطورية: نماذج لغة البروتين تلتقط الإمكانات التطورية لفيروس SARS-CoV-2
لماذا يهم هذا للموجات الوبائية المستقبلية
خلال معظم جائحة كوفيد‑19، كان العلماء يطاردون الأحداث: ظهرت متغيرات جديدة في العالم الحقيقي قبل أن تقدر المختبرات ما تعنيه تلك التغيرات بالنسبة للانتقالية أو تهرب المناعة. تُظهر هذه الدراسة أن نماذج حاسوبية قوية، صُممت أصلاً لفهم اللغة البشرية، تستطيع بدلاً من ذلك «قراءة» لغة البروتينات واستنتاج كيف من المرجح أن يتغير ويتأقلم بروتين سبايك الخاص بالفيروس—باستخدام تسلسل وحدات البناء فقط. قد تساعد هذه القدرة الباحثين على رصد المتغيرات المقلقة مبكراً وقد تُعمّم لتشمل العديد من العوامل المرضية الأخرى.
تعليم الحواسيب قراءة البروتينات
يعمل المؤلفون مع نموذج لغة بروتين يُسمّى ESM‑2، مدرَّب على عشرات الملايين من تسلسلات البروتين عبر شجرة الحياة. كما يتعلم نموذج اللغة القواعد والمعاني من الكلمات، يتعلم ESM‑2 أي أنماط الأحماض الأمينية «منطقية» في البروتينات الحقيقية. عند تزويده بتسلسل بروتين سبايك لـ SARS‑CoV‑2، يمنح النموذج كل طفرة محتملة درجتين رئيسيتين: درجة «القواعدية» التي تعكس مدى تطابق التسلسل المعدّل مع قواعد بنية البروتين المتعلمة، ودرجة «الدلالة» التي تقيس مدى تغير البروتين ككل في التمثيل الداخلي للنموذج. يمكن حساب هاتين الدرجتين لكل طفرة مفردة ممكنة على الحاسوب، وهي استراتيجية تعرف باسم فحص الطفرات العميق الحاسوبي (in silico deep mutational scanning). 
تحديد أين يمكن للفيروس أن يتغير وأين لا يمكن
بمسح كل التغيرات ذات الحرف الواحد عبر سبايك، وجد الفريق أن ESM‑2 يستعيد بشكل طبيعي السمات المعمارية الرئيسية للبروتين. يُتوقع أن يكون جزء S2، الذي يشكل الساق الثابتة المسؤولة عن اندماج الغشاء، مقيداً بشدة: فمعظم الطفرات هناك تخفض القواعدية بشكل حاد، مما يوحي بأنها قد تضر البنية أو الوظيفة البروتينية. بالمقابل، مناطق على السطح الخارجي من جزء S1، بما في ذلك النطاق الطرفي N‑terminal والمجال الرابط للمستقبل، تتحمل تغيّرات أكثر. هذا يتوافق مع ما يُرى في جينومات الفيروس الحقيقية، حيث تتراكم الطفرات في هذه المناطق المكشوفة لمساعدة الفيروس على الالتصاق بالخلايا وتفادي الأجسام المضادة، بينما يظل اللب البنيوي أكثر تحفظاً.
كشف العمل الجماعي الخفي بين الطفرات
البروتينات ليست مجرد مجموعة مواقع مستقلة؛ فقد تغير طفرة واحدة مدى قبول طفرات أخرى، وهي ظاهرة تُسمى التآثر الجيني (الإپيستاسيس). استقصى الباحثون هذا بالبدء من سبايك أوميكرون BA.1 وإجراء «استرجاع» حسابي لطفراته المميزة واحدة تلو الأخرى إلى تسلسل ووهان الأصلي. يغيّر كل استرجاع احتمالات النموذج للأحماض الأمينية في كل موقع آخر. التحولات الكبيرة تكشف أزواج مواقع مترابطة المصير. باستخدام هذا النهج، تبرز الدراسة نقاط ساخنة معروفة مثل المواضع حول 484 و501 في مجال ربط المستقبل، التي تشكل معاً كل من تهرب المناعة والالتصاق بمستقبل ACE2. كما تشير إلى عناقيد أقل وضوحاً من البقايا التي تأكدت تفاعلاتها لاحقاً في دراسات تجريبية لزيادة نمو أوميكرون في خلايا الأنف البشرية، ما يوحي بأن النموذج يلتقط اقترانات بنيوية ووظيفية حقيقية. 
متابعة التطور الفيروسي ورصد الشواذ
تجاوزاً للطفرات المفردة، تسأل الدراسة ما إذا كان ESM‑2 يمكنه فهم تسلسلات المتغيرات الكاملة كما ظهرت مع مرور الزمن. تضمَّنوا تسلسل سبايك واحداً لكل سليل مسمى من SARS‑CoV‑2 ووضعوها في خارطة ثنائية الأبعاد باستخدام نهج يُدعى evo‑velocity، الذي يستنتج أيضاً اتجاهاً سائداً للتغيير. تعكس الخريطة الناتجة الشجرة الوراثية المعروفة: تتجمع السلالات المبكرة معاً، ثم تتقوّس الفروع المطابقة لألفا و دلتا و أوميكرون والسلالات المُعاد تركيبها بالترتيب الزمني الصحيح. تُفصل إحصاءات موجزة بسيطة مثل متوسط القواعدية والمسافة الدلالية بوضوح بين السلالات غير المتغيرة، والمتغيرات المبكرة المثيرة للقلق، وفيروسات فئة أوميكرون، مما يُظهر أن التمثيل الداخلي للنموذج يتتبع تحوّلات تطورية ذات مغزى.
تحويل التمثيلات إلى نظام إنذار مبكر
لاستكشاف الرصد العملي، يقدم الفريق درجة دلالية ديناميكية: يُقارن كل تسلسل سبايك جديد ليس فقط بسلالة ووهان الأصلية بل بمتوسط الفيروسات المتداولة في الثلاثة أشهر السابقة. عندما يُطبّق هذا على بيانات تسلسل مكثفة من المملكة المتحدة، ينتج هذا المقياس المتحرك موجات مميزة مع صعود وهبوط ألفا ودلتا وتتابع تفرعات أوميكرون. تُعلَم التسلسلات التي تقع بعيدة انحرافاً معيارياً واحداً أو اثنين عن المتوسط الحالي كسلاسل محتملة مقلقة. باستخدام هذه الشواذ المبكرة فقط، كان للأسلوب ليبرز معظم المتغيرات المقلقة المعترف بها من قبل منظمة الصحة العالمية وعدداً من التفرعات الهامة اللاحقة مثل JN.1، كما يكشف أي المواقع المحددة في بروتين سبايك تُغيّر مراراً في السلالات الناشئة.
ماذا يعني هذا للتهديدات المستقبلية
بشكل عام، تُظهر الدراسة أن نموذج لغة بروتين عام الغرض، مستخدماً مباشرة دون تعديل كبير، يمكنه تحديد أي أجزاء من بروتين سبايك SARS‑CoV‑2 مرنة، وأي المواقع حاسمة بنيوياً، وكيف تتآزر الطفرات معاً، وكيف تجوّل سبايك الفيروس في الفضاء التطوري على مدار الجائحة. وبما أن الطريقة تعمل من تسلسل بروتين واحد ولا تعتمد على محاذاة سابقة أو بيانات بنيوية مفصلة، فيمكن تطبيقها في وقت مبكر جداً من التفشي، عندما تكون معروفة حفنة من الجينومات فقط. ومع تنقيح نماذج مماثلة وتكييفها لبيانات فيروسية، قد تصبح جزءاً مهماً من أدوات التنبؤ بكيفية تطور الممرضات الجديدة ومن أولويات المتغيرات للدراسة المختبرية وتصميم اللقاحات.
الاستشهاد: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
الكلمات المفتاحية: نماذج لغة البروتين, بروتين سبايك SARS-CoV-2, التطور الفيروسي, التآثر الجيني (الإپيستاسيس), رصد المتغيرات