Clear Sky Science · ar
نموذج لغوي متزاوج للتسلسلات لنمذجة تفاعلات البروتين-بروتين
لماذا تهم دراسة شراكات البروتين
داخل كل خلية، نادرًا ما تعمل البروتينات بمفردها. تتكاتف في أزواج أو مجموعات أكبر لتمرير الإشارات، وبناء الهياكل، ومكافحة العدوى. معرفة أي البروتينات تتفاعل، ومدى قوة ارتباطها، والمواقع الدقيقة التي تلامس فيها يمكن أن تكشف كيفية عمل الخلايا وكيف تنشأ الأمراض. لكن قياس كل هذه الشراكات البروتينية في المختبر بطيء ومكلف. تقدم هذه الدراسة نموذج ذكاء اصطناعي جديدًا يقرأ سلسلتي بروتين معًا، ويتعلم التعرف على من يتصل بمن، وبأي قوة، وفي أي نقاط تلامس—باستخدام تسلسلات الأحماض الأمينية فقط كمدخلات.
طريقة جديدة لقراءة بروتينين في آن واحد
تتعامل معظم نماذج لغات البروتين الحالية مع كل سلسلة بروتينية كما لو كانت بمفردها، متجاهلة كيف قد تتفاعل مع شركاء. بدلًا من ذلك، بنى المؤلفون "نموذج لغة الأزواج البروتينية" (PPLM) الذي ينظر دائمًا إلى سلسلتين جنبًا إلى جنب. يستخدم هندسة المحول (transformer)، وهو نوع من نماذج التعلم العميق الشائعة في تقنيات اللغة، لكنه مخصص بحيث يمكنه تتبع الأنماط داخل كل بروتين وبينه وبين البروتين الآخر على نحو منفصل. لتدريبه، جمع الفريق أكثر من 3.3 مليون زوج بروتيني من قواعد بيانات البنية وشبكات التفاعل، مما منح النموذج رؤية واسعة لكيفية اتحاد البروتينات الطبيعية في البيولوجيا الحقيقية.

رؤية إشارات التفاعل المخبأة في التسلسلات
لاختبار ما إذا كان PPLM يفهم حقًا شراكات البروتين، طلب المؤلفون منه توقع الأحماض الأمينية المقنعة في أزواج التسلسلات وقارنوها بنموذج تسلسلي واحد رائد يدعى ESM2. عبر آلاف الأزواج البروتينية من مصادر مختلفة، كان PPLM أكثر ثقة ودقة باستمرار، خصوصًا عند البقايا الواقعة مباشرة عند الواجهة حيث تلامس البروتينات بعضها البعض. من خلال تصور أنماط "الانتباه" الداخلية للنموذج، أظهر الباحثون أن PPLM يتركز بطبيعته على تلك مناطق التلامس، رغم أنه لم يُخبر صراحة أين تقع الواجهة. في دراسة حالة مفصّلة لمركب بروتيني معروف، طابقت أزواج البقايا التي حظيت بأكبر قدر من الانتباه معظم الاتصالات المرصودة تجريبيًا في الفضاء ثلاثي الأبعاد.
من الفهم الأساسي إلى التنبؤات العملية
استنادًا إلى هذا الأساس، أنشأ الفريق ثلاث أدوات تطبيقية. يتنبأ PPLM-PPI بما إذا كان من المرجح أن يتفاعل بروتينان على الإطلاق. عند اختباره عبر خمس أنواع مختلفة، تفوق على عدة طرق تسلسلية متقدمة، موفّرًا قرارات تفاعل أكثر دقة وثباتًا حتى عندما كانت البروتينات الاختبارية مختلفة إلى حد كبير عن تلك التي رآها أثناء التدريب. يقدّر PPLM-Affinity مدى قوة الارتباط بين بروتينين. على معيار واسع للمركبات ذات قوى ارتباط مقاسة، لم يتفوق فقط على نسخة من ESM2 مخصّصة للمهمة نفسها، بل وتجاوز أيضًا طريقة متخصصة تستخدم هياكل ثلاثية الأبعاد مفصلة. كانت المكاسب ملحوظة بشكل خاص في الأنظمة المهمة طبيًا مثل ارتباط الأجسام المضادة بالمستضدات والتعرف مستقبلات الخلايا التائية على أهداف مناعية.
تحديد نقاط التلامس بين البروتينات
الأداة الثالثة، PPLM-Contact، تركز على أي أزواج البقايا عبر بروتينين تتلامس فعليًا. تجمع بين أنماط الانتباه عبر البروتينات في PPLM والمعلومات التطورية من محاذاة تسلسلات متعددة وخرائط المسافات من هياكل البروتينات الفردية. عبر عدة مجموعات اختبار صعبة، استعاد PPLM-Contact خرائط التلامس وحدد بقايا الواجهة بدقة أفضل من الطرق القائمة، بما في ذلك بعض الطرق التي تعتمد اعتمادًا كبيرًا على المدخلات البنيوية. نسخة محسنة، PPLM-Contact2، تذهب خطوة أبعد بدمج هياكل المركبات المتوقعة من أنظمة النمذجة ثلاثية الأبعاد الحديثة. يحسن هذا النهج الهجين تنبؤ التلامس حتى متجاوزًا تلك المتنبئات الهيكلية نفسها، مما يوفر صورًا أوضح لسطوح الارتباط وتحديدًا أوثق لمواقع الارتباط.

ما يعنيه هذا لعلم الأحياء والطب
تُظهر هذه النتائج مجتمعة أن قراءة تسلسلات البروتين كأزواج، بدلاً من منفردة، تتيح لنماذج الذكاء الاصطناعي التقاط أنماط تفاعل دقيقة تشكل أساس الحياة الخلوية. يمكن لـ PPLM ومشتقاته القول ما إذا كان من المرجح أن يلتقي بروتينان، ومدى شدّة تشبثهما، وأي الأحماض الأمينية تشكل "المصافحة"—كل ذلك اعتمادًا على معلومات تسلسلية رخيصة ومتاحة بكثرة. رغم أن النهج لا يزال يواجه صعوبات مع الواجهات الصغيرة جدًا أو الضعيفة ويعتمد على تنوّع بيانات التدريب المتاحة، فإنه يقدم مسارًا قابلًا للتوسع نحو رسم خرائط شبكات التفاعل وتوجيه تصميم الأجسام المضادة ومُستقبِلات الخلايا التائية والأدوية البيولوجية الأخرى. في الجوهر، توضح الدراسة أن النماذج اللغوية الممثلة معًا يمكن أن تحول بيانات التسلسل الخام إلى رؤى غنية وواعية بالتفاعل حول كيفية تعاون البروتينات.
الاستشهاد: Liu, J., Chen, H. & Zhang, Y. A paired sequence language model for protein-protein interaction modeling. Nat Commun 17, 3733 (2026). https://doi.org/10.1038/s41467-026-70457-5
الكلمات المفتاحية: تفاعلات البروتين–بروتين, نماذج لغوية للبروتين, قوة الارتباط, تنبؤ تلامس الواجهة, علم الأحياء البنيوي الحاسوبي