Clear Sky Science · ar

التدريب القبلي لنقل المعرفة من متعدد إلى أحادي الوضع لتمثيل الجزيئات

· العودة إلى الفهرس

لماذا تهم حواسيب الأدوية الأكثر ذكاء

تصميم أدوية جديدة يعتمد بشكل متزايد على حواسيب قادرة على «فهم» الجزيئات. تحول هذه البرامج الجزيء الدوائي إلى أرقام يمكن للنموذج استخدامها للتنبؤ بالسلامة والفعالية أو التداخلات الضارة. تقدم الورقة طريقة جديدة تسمى M2UMol لتدريب مثل هذه النماذج بحيث تعمل جيدًا حتى عندما يتوفر فقط النوع الأكثر شيوعًا من بيانات الجزيئات، مما يعد بمساعدة أسرع وأكثر موثوقية للكيميائيين والأطباء.

Figure 1
Figure 1.

رؤية الجزيء من زوايا متعددة

تأتي معلومات الأدوية الحقيقية بأشكال متعددة: رسم ثنائي الأبعاد لروابط الذرات، شكل ثلاثي الأبعاد، أوصاف مكتوبة لآلية عمل الدواء، وقوائم طويلة من الحقائق البيولوجية مثل البروتينات التي يرتبط بها. معظم الطرق الحالية إما تستخدم إحدى هذه الرؤى فقط أو تتطلب توافرها جميعًا لكل جزيء أثناء التدريب. في الواقع، البيانات التي تتوفر تقريبًا دائمًا هي البنية الثنائية الأبعاد البسيطة. أما الرؤى الأخرى فغالبًا ما تكون مفقودة، مما يمنع الطرق المتعددة الوسائط الحالية من التعلم من أعداد كبيرة من الجزيئات الواقعية.

تعليم وجه واحد ليعمل كأن له عدة أوجه

تعالج M2UMol هذا الأمر بجعل الرسم البياني ثنائي الأبعاد للجزيء محورًا وتعلم كيف يرتبط هذا المنظور الوحيد بالمناظير الأخرى. أثناء التدريب القبلي، يقرأ النظام الرسوم الثنائية الأبعاد والأشكال الثلاثية الأبعاد والملخصات النصية وقوائم الميزات البيولوجية لأكثر من أحد عشر ألف جزيء يشبه الأدوية. يستخدم مشفرات منفصلة لكل نوع من البيانات ثم يدرب «محوِّلات» تأخذ الرسم الثنائي الأبعاد فقط وتولد كيف يجب أن تبدو الأنماط الثلاثية الأبعاد أو النصية أو البيولوجية. خطوة التعلم التبايني تدفع الأنماط المولدة لتطابق الأنماط الحقيقية عن قُرب عندما تكون متاحة، حتى لو كانت بعض الرؤى مفقودة لبعض الجزيئات. مهمة تدريب ثانية تطلب من النظام تخمين أي نمط ينتمي لأي وسيلة، مما يساعده على الحفاظ على تمايز أنواع المعلومات المختلفة.

Figure 2
Figure 2.

استخدام المعرفة متعددة الوسائط عندما يتوفر ثنائي الأبعاد فقط

بعد أن تتعلم M2UMol هذه العلاقات، يمكن تطبيقها على مهام عملية حيث تتوفر فقط البنى الثنائية الأبعاد، مثل التنبؤ بالسمية أو بخصائص مرتبطة بالأمراض أو تداخلات الأدوية. لكل جزيء جديد، ينتج المشفر الثنائي الأبعاد المدرب تمثيلًا أساسيًا، وتنتج المحوِّلات ثلاث نسخ «متخيلة»: واحدة تشبه الهندسة ثلاثية الأبعاد، وواحدة تحاكي المعرفة النصية، وواحدة تلتقط السياق البيولوجي. بعد ذلك تجمع وحدة انتباه بسيطة هذه الرؤى الأربع في بصمة نهائية يستخدمها متنبئو المهام الخاصة. يتيح ذلك للنموذج أن يتصرف كما لو أنه يمتلك معلومات متعددة الوسائط غنية، بينما يحتاج المستخدمون إلى تقديم رسم ثنائي الأبعاد قياسي فقط.

تنبؤات أفضل ببيانات أقل وتفسير أوضح

عبر مجموعة واسعة من مقاييس الأداء، تتفوق M2UMol على نماذج الوجه الواحد والنماذج المتعددة الوسائط السابقة في التنبؤ بخصائص الجزيئات وفي مهام أكثر تعقيدًا مثل تداخلات الدواء–دواء والدواء–الهدف. وتفعل ذلك مع أنها مدرَّبة قبليًا على ما يزيد قليلًا عن أحد عشر ألف جزيء، باستخدام موارد حاسوبية متواضعة، بينما تستخدم طرق متنافسة كثيرة ملايين العينات. تُظهر التحليلات البصرية أن التمثيلات المتعلمة مفصولة جيدًا بين الفئات وموزعة بشكل متوازن، وهو علامة على محتوى معلوماتي عالٍ. يمكن للنموذج أيضًا تحديد ذرات وروابط معينة تقود قراراته، وغالبًا ما تتطابق هذه مع المجموعات الوظيفية المعروفة المسؤولة عن السمية أو النشاط عند مستقبل أو التداخلات المشكلة بين الأدوية.

ماذا يعني هذا للأدوية المستقبلية

لغير المتخصصين، الفكرة الأساسية هي أن M2UMol يتعلم أن يتعامل مع رسم خطي بسيط للجزيء كما لو أنه يحمل ثلاث طبقات إضافية من السياق العلمي الغني. تسمح هذه الخدعة له بإجراء تنبؤات أقوى وأكثر قابلية للتفسير بشأن سلوك الدواء، حتى عندما تكون البيانات التجريبية المفصلة غير متاحة. وبما أنه فعال ومفتوح المصدر ومُعد للاستخدام بسهولة، فقد يساعد هذا النهج الباحثين على فحص المركبات بحكمة أكبر، وفهم أسباب فشل بعض الأدوية، وفي نهاية المطاف توجيه تصميم أدوية جديدة مع مفاجآت أقل.

الاستشهاد: Xiong, Z., Wang, Z., Huang, F. et al. Multi-to-uni modal knowledge transfer pre-training for molecular representation learning. Nat Commun 17, 3797 (2026). https://doi.org/10.1038/s41467-026-69302-6

الكلمات المفتاحية: اكتشاف الأدوية, تعلم تمثيل الجزيئات, الذكاء الاصطناعي متعدد الوسائط, تداخلات الأدوية, الكيمياء الحاسوبية