Clear Sky Science · ar

تنبؤ موثوق بأرقام تصنيف الإنزيمات باستخدام مُحوّل هرمي قابل للتفسير

· العودة إلى الفهرس

لماذا يهم التنبؤ بوظائف الإنزيمات

تعمل كل خلية حية بفضل عدد هائل من الآلات الكيميائية الصغيرة المسماة إنزيمات. لدى كل إنزيم «مهمة» محددة، وهذه المهمة مشفّرة في رقم لجنة الإنزيمات (EC)، وهو رمز من أربعة أجزاء يشبه إلى حد ما العنوان البريدي. التعيين الصحيح لأرقام EC أمر حاسم لفهم الأيض، وتصميم أدوية جديدة، وهندسة الميكروبات لإنتاج وقود أو بدائل للبوليمرات، وتتبع كيفية معالجة النظم البيئية للمواد الكيميائية. لكن التجارب لتحديد وظائف الإنزيمات بطيئة ومكلفة. تقدم هذه الدراسة HIT-EC، نموذج ذكاء اصطناعي جديد قادر على التنبؤ بأرقام EC من تسلسلات البروتين بشكل موثوق مع توضيح سبب كل تنبؤ.

Figure 1
الشكل 1.

نظام شِفرَة بريدي للمهام الإنزيمية

يمنح نظام EC كل إنزيم رمزًا هرميًا مكوّنًا من أربع مستويات مثل 1.1.1.37. يشير الرقم الأول إلى فئة واسعة (على سبيل المثال، إنزيمات تنقل إلكترونات أو تنقل مجموعات)، بينما تصف الأرقام اللاحقة تفاصيل أدق للتفاعل. هذا التسلسل الهرمي قوي لكنه يخلق مشكلة تنبؤية صعبة: يجب على النموذج أن يصحح جميع المستويات الأربعة لآلاف الرموز الممكنة، حتى عندما تكون بعض الإنزيمات نادرة أو موسومة جزئيًا في قواعد البيانات (مثلاً 3.5.-.- حيث المستويات التفصيلية مفقودة). تستخدم الطرق الحاسوبية الحالية إما البنية ثلاثية الأبعاد أو تشابه التسلسل أو التعلم العميق، لكنها تميل إلى المعاناة مع الإنزيمات غير الشائعة، وتجاهل البيانات ذات الوسم الجزئي، وغالبًا ما تتصرف كـ«صندوق أسود» يقدم القليل من الشرح لقراراته.

ذكاء اصطناعي بأربعة طوابق يتبع سلم EC

بُني HIT-EC (المحوّل الهرمي القابل للتفسير لتنبؤ EC) ليعكس التسلسل الهرمي المكوّن من أربع خطوات لنظام EC. يأخذ تسلسل البروتين الخام ويمرره عبر أربعة طبقات من المحوّلات، يركز كل منها على مستوى EC واحد. تربط تيارات محلية كل مستوى بالسابق، مما يضمن أن القرار الدقيق (الرقم الرابع) يجب أن يكون متسقًا مع المستويات الأوسع (الأول والثاني). وبالتوازي، يحافظ تيار عالمي على سياق التسلسل الكامل مرئيًا في كل خطوة. يمكن أيضًا تدريب النموذج على تسلسلات ذات وسوم غير مكتملة باستخدام «خسارة مقنّعة» تتجاهل ببساطة مستويات EC المفقودة بدلًا من استبعاد التسلسل. هذا يسمح لـHIT-EC بالتعلم من الجزء الكبير من البروتينات في قواعد البيانات المنقّحة التي وُسّمت جزئيًا فقط.

تفوق على المنافسين في الدقة والسرعة

جمع المؤلفون مجموعة بيانات كبيرة ومصفّاة بعناية تضم نحو 200,000 إنزيم مع 1,938 رقم EC مختلفًا من Swiss-Prot وProtein Data Bank. في اختبارات التثبيت المتكررة، تفوق HIT-EC على ثلاث طرق رائدة (CLEAN وECPICK وDeepECtransformer) في كل من مقاييس F1 العامة ولكل فئة، والتي تقيس التوازن بين الضربات الصحيحة والتنبيهات الكاذبة. كان قويًا بشكل خاص على رموز EC المُمثلة تمثيلا ضعيفًا والمكوّنة من 25 مثالًا أو أقل، حيث غالبًا ما تخفق الطرق السابقة. كما عمّم HIT-EC جيدًا على إنزيمات جديدة أُضيفت إلى Swiss-Prot بعد التدريب وعلى جينومات كاملة من بكتيريا متنوعة، بما في ذلك سلالات مكروهة للدراسة مثل Escherichia coli وBacillus subtilis وMycobacterium tuberculosis. وعلى الرغم من تعقيده، كان النموذج عالي الكفاءة: على وحدة معالجة رسومية قياسية عالج بروتينًا في حوالي 38 مللي ثانية — أسرع بعشرات المرات من بعض المنافسين الذين يعتمدون على بحث تشابهي أبطأ أو على تجميعات من نماذج متعددة.

Figure 2
الشكل 2.

رؤية ما ‘‘ينظر’’ إليه النموذج

لجعل تنبؤاته جديرة بالثقة، صُمّم HIT-EC ليعرض الأحماض الأمينية في التسلسل التي أثّرت على كل قرار بمستوى EC. بنى المؤلفون مسار تفسير يجمع أوزان الانتباه مع معلومات التدرّج لمنح درجة أهمية لكل موضع. تحققوا من هذه الدرجات على عائلات إنزيمية معروفة جيدًا. على سبيل المثال، في عائلة السيتوكروم P450 (CYP106A2)، أبرز HIT-EC حواف وظيفية معروفة مثل مناطق ربط الأكسجين والهيِم، وحدد نمطًا دقيقًا EXXR الذي أغفله أحد نماذج المعيار. بالنسبة لممثلين كلاسيكيين عن كل فئة عليا من EC — مثل كحول ديهيدروجيناز، هكسوكيناز، وأنهدراز الكربونيك — أضاءت درجات الأهمية نماذج توقيع دراسية ومواقع ربط الركيزة. توفر هذه التفسيرات «دليلًا» بيوكيميائيًا على أن النموذج يبني تنبؤاته على ميزات ذات مغزى، لا على ترابطات عَرَضيّة.

توجيه العمل على الإنزيمات النادرة والناشئة

اختبر الفريق HIT-EC أيضًا على إنزيمين غير مدروسين جيدًا ومهمين لتنظيف التلوث: سيتوكروم P450 يشارك في تحلل الملوّثات العطرية، وهيدرولاز موزّع PET من ستربتوميسيس يساعد على هضم جزيئات متعلقة بالبلاستيك. كان كلا الإنزيمين محدّدان تجريبيًا لكن يفتقران إلى تعيينات EC رسمية. تنبأ HIT-EC بشكل صحيح بأرقام EC المتوقعة وأبرز أنماط الحواف والبقايا التحفيزية التي تتطابق مع ما هو معروف من الدراسات الهيكلية والبيوكيميائية. عمومًا، تُظهر الدراسة أن HIT-EC يمكنه ليس فقط تعيين أرقام EC بدقة وسرعة أكبر من الأدوات الحالية، خاصة للوظائف النادرة، بل أيضًا توضيح سبب اعتقاد أن إنزيمًا معينًا يؤدي مهمة كيميائية محددة. إن هذا المزيج من الأداء والقابلية للتفسير يجعله محركًا واعدًا للتوصيف الواسع المقياس والموثوق للإنزيمات في علم الجينوم والتكنولوجيا الحيوية والبحث البيئي.

الاستشهاد: Dumontet, L., Han, SR., Lee, J.H. et al. Trustworthy prediction of enzyme commission numbers using a hierarchical interpretable transformer. Nat Commun 17, 1146 (2026). https://doi.org/10.1038/s41467-026-68727-3

الكلمات المفتاحية: تنبؤ وظيفة الإنزيم, التعلم العميق في علم الأحياء, نماذج المحوّل, توصيف البروتين, إنزيمات المعالجة الحيوية