Clear Sky Science · ar
قياس عدم التيقن في تمثيلات البروتين عبر النماذج والمهام
لماذا تهم الموثوقية في ذكاء البروتين الاصطناعي
أصبح الذكاء الاصطناعي بمثابة مجهر قوي لعالم البروتينات غير المرئي. تستطيع نماذج "لغة البروتين" الحديثة أن تتوقع شكل البروتين ثلاثي الأبعاد وكيف قد يتصرف، انطلاقاً من تسلسله فقط. هذه النماذج تساعد بالفعل في تصميم أدوية جديدة وفهم طفرات الأمراض. لكن ثمة مشكلة خفية: نادراً ما تخبرنا هذه النماذج بمدى ثقتنا في التمثيلات الداخلية التي تنتجها. يتناول هذا البحث تلك الفجوة بسؤال بسيط له عواقب كبيرة: عندما يحول النموذج البروتين إلى سحابة من الأرقام، كيف نعرف إن كانت تلك السحابة تعكس بيولوجيا حقيقية أم أنها مجرد ضوضاء؟

من الجمل إلى البروتينات
طُورت نماذج اللغة أولاً لمعالجة نصوص البشر، فتتعلم كيف ترتبط الكلمات ببعضها وتتنبأ بما سيأتي تالياً في الجملة. نفس الأفكار تُشغّل الآن نماذج تقرأ تسلسلات البروتين والحمض النووي كما لو كانت كلمات طويلة. لكل بروتين، ينتج النموذج "تضميناً"—نقطة في فضاء عالي الأبعاد تهدف إلى تلخيص ما يعرفه النموذج عن ذلك البروتين. تُستخدم هذه التضمينات في العديد من المهام اللاحقة، مثل توقع البنية والوظيفة وتأثير الطفرات. ومع ذلك، وعلى خلاف درجات التنبؤ أو مقاييس الثقة المألوفة، تُؤخذ التضمينات عادةً كما هي: إذا أخرج النموذج متجهاً، يميل المستخدمون إلى الوثوق به، حتى في مناطق من فضاء البروتينات التي نادراً ما رآها النموذج أثناء التدريب.
كشف متى يخمن النموذج
يقترح المؤلفون طريقة عملية لتقدير مدى ثقة التضمين، من دون تعديل النموذج الأساسي. الفكرة الأساسية هي أن يعطوا النموذج مجموعة من تسلسلات البروتين المبعثرة عمدًا التي تحتفظ بنفس التركيب الأساسي لكنها تفقد كل الأنماط البيولوجية المفيدة. تعمل هذه التسلسلات التركيبية كـ"مزبلة"—مرجع لما ينتجه النموذج عندما لا يوجد إشارة حقيقية للتعلم. بالنسبة لأي بروتين حقيقي، تتحقق الطريقة من عدد أقرب جيرانه في فضاء النموذج الداخلي الذين ينتمون إلى هذه المزبلة. إذا كانت العديد من النقاط القريبة من تسلسلات مبعثرة، فربما يكون تمثيل البروتين غير متعلّم جيداً أو غامضاً. يسمي المؤلفون هذه النسبة من الجيران المبعثرين درجة الجار العشوائي (RNS).
ربط عدم التيقن بالأداء في العالم الحقيقي
لاختبار ما إذا كانت RNS تعكس فعلاً شيئاً ذا قيمة بيولوجية، حلل الفريق مجموعات كبيرة من البنى والتسلسلات البروتينية باستخدام عدة نماذج متقدمة، بما في ذلك ESM-2 وProtT5. وجدوا أن البروتينات التي تم التنبؤ ببنيتها بدقة كان لها ميل لأن تكون ذات RNS منخفضة—أي أن تضميناتها كانت بعيدة عن المزبلة. في المقابل، كانت البروتينات ذات التنبؤات البنيوية الضعيفة تقع في مناطق تتداخل فيها التسلسلات الحقيقية والمبعثرة. ظل هذا النمط مستمراً عبر نماذج ومهام مختلفة. وعند النظر في مشاكل تطبيقية أكثر، مثل توقع أي بقايا أمينية تتلامس في الفراغ ثلاثي الأبعاد أو تعيين البنية الثانوية، لوحظ تراجع واضح في الدقة مع ارتفاع RNS. بعبارة أخرى، كلما زاد عدم التيقن في التضمين (RNS أعلى)، قل الاعتماد على التنبؤات اللاحقة.

نقاط عمياء في فضاء البروتين
كشفت RNS أيضاً عن نقاط عمياء منهجية في كيفية تمثيل النماذج لأجزاء مختلفة من كون البروتينات. كانت المناطق غير المرتبة ذاتياً—وهي سلاسل مرنة تفتقر إلى بنية ثابتة—تملك دائماً RNS أعلى من المجالات المهيكلة جيداً، مما يدل على أن النماذج تكافح أكثر مع هذه التسلسلات الزلقة. حتى داخل البروتيوم البشري المدروس جيداً، كان جزء كبير من البروتينات له RNS غير صفري، مما يشير إلى أنها غير ممثلة تمثيلاً جيداً في النماذج الشائعة. ومن المدهش أن النماذج الأكبر لم تكن دائماً الأفضل: فقد يكون نموذج كبير متركز على البنية أكثر تيقناً في نقاط معينة ولكنه أكثر عدم يقيناً تجاه العديد من البروتينات البشرية مقارنةً بنموذج أصغر وأكثر عمومية. بالنسبة للبروتينات المستخرجة حديثاً من الميتاجينوم وحتى البروتينات "المتخيلة" المصممة حاسوبياً لتبدو واقعية، اقترح انخفاض RNS أن النماذج قادرة على التعميم بثقة خارج بيانات التدريب عندما تكون الأنماط متسقة.
مرشحات أفضل لبصيرة بيولوجية أفضل
اختبر المؤلفون بعد ذلك كيف يؤثر الفرز بناءً على RNS على مهمة ذات صلة سريرياً: التنبؤ ما إذا كان تغيير حرف واحد في بروتين بشري سيعطل وظيفته أو يسبب مرضاً. عندما قيدوا التحليل بالبروتينات ذات RNS منخفض—حيث بدت التضمينات موثوقة—تحسّن أداء النموذج بصورة ملحوظة، وغالباً ما وصل إلى تمييز قوي بين المتغيرات الضارة والمحايدة. بالنسبة للبروتينات ذات RNS العالي، انخفضت التنبؤات إلى مستويات تقارب الصدفة. يدعم هذا الرأي بأن التضمينات غير الموثوقة تحدد بهدوء أقصى دقة ممكنة لأي أداة لاحقة مبنية عليها، بغض النظر عن الحيل التدريبية الذكية.
ماذا يعني هذا لاستخدام الذكاء الاصطناعي في علم الأحياء
لغير المتخصصين، الخلاصة هي أن ليست كل التمثيلات المشتقة من الذكاء الاصطناعي للبروتينات موثوقة بالقدر نفسه، وأنه يمكن الآن قياس هذه الموثوقية. تعمل درجة الجار العشوائي كفحص صحي بسيط ومستقل عن النموذج للتضمينات: الدرجات المنخفضة تدل على أن البروتين يجلس بين تسلسلات أخرى ذات معنى بيولوجي، بينما تشير الدرجات العالية إلى أنه ينجرف نحو مزبلة من المماثلات العشوائية. من خلال تصفية أو وزن البروتينات بناءً على RNS قبل إجراء تنبؤات بنيوية أو تسجيل الوظائف أو ترتيب أولويات متغيرات الأمراض، يمكن للباحثين التركيز على المناطق التي "يفهم" النموذج البيانات فيها فعلاً. وكما لن يستخدم أي عالم مجهرًا ضبابياً دون أن يلاحظ ذلك، يجادل هذا العمل بأن كل نموذج لغة للبروتين يجب أن يصاحبه وسيلة مدمجة لتقييم حدة رؤيته الداخلية للبيولوجيا.
الاستشهاد: Prabakaran, R., Bromberg, Y. Quantifying uncertainty in protein representations across models and tasks. Nat Methods 23, 796–804 (2026). https://doi.org/10.1038/s41592-026-03028-7
الكلمات المفتاحية: نماذج لغات البروتين, موثوقية التضمينات, عدم التيقن في التمثيل, تنبؤ تأثير المتغيرات, البروتينات غير المرتبة ذاتياً