Clear Sky Science · ar

مسح حول نماذج اللغة الكبيرة في علم الأحياء والكيمياء

· العودة إلى الفهرس

تعليم الحواسيب لغة الجزيئات

تنتج علوم الأحياء والكيمياء الحديثة الآن بيانات أكثر مما يمكن لأي إنسان قراءته. يوضح هذا المقال كيف تُعاد توظيف نماذج اللغة الكبيرة — نفس نوع الذكاء الاصطناعي وراء روبوتات المحادثة — لقراءة وكتابة «لغات» الحمض النووي والبروتينات والجزيئات الصغيرة. بالنسبة للقارئ العادي، فإن الجاذبية واضحة: تعد هذه الأدوات باكتشاف أدوية أسرع، وفهم أفضل للأمراض، وحتى حواسيب تساعد في تخطيط وإدارة التجارب في المختبر.

من الكلمات والجمل إلى الجينات والجزيئات

بنيت نماذج اللغة في الأصل لتوقع الكلمة التالية في جملة. أدرك العلماء أن العديد من السجلات البيولوجية والكيميائية، مثل تسلسلات البروتين أو الترميزات الخطية للجزيئات، تبدو أيضاً كسلاسل نصية. إذا تمكن الذكاء الاصطناعي من تعلم الأنماط في اللغة الطبيعية، فقد يستطيع أيضاً تعلم الأنماط التي تربط تسلسل الجين بدوره في الخلية، أو الصيغة الكيميائية بخصائصها. تستعرض المراجعة كيف يحول الباحثون بعناية الجزيئات ثلاثية الأبعاد المعقدة والخلايا إلى سلاسل أحادية البُعد أو رسوم بيانية أو سحب نقاط يستطيع الذكاء الاصطناعي معالجتها. هذه خطوة تصميمية حاسمة، لأن طريقة تمثيل المعلومات تحدد ما يمكن أن يتعلمه النموذج ونوعية الاكتشافات الممكنة.

Figure 1
الشكل 1.

قراءة البروتينات والحمض النووي وحياة الخلايا المفردة

تركيز رئيسي واحد هو على «نماذج اللغة البيولوجية» التي تتعامل مع الأنظمة الحية. بالنسبة للبروتينات، يمكن للنماذج المدربة على ملايين التسلسلات الآن التنبؤ بكيفية طي سلسلة الأحماض الأمينية إلى بنية ثلاثية الأبعاد، منافسةً تقنيات المختبر الدقيقة. تذهب بعض النماذج أبعد من ذلك، مقترحةً تصاميم بروتينية جديدة لم توجد في الطبيعة لكنها قد تعمل كأدوية أو إنزيمات صناعية. بالنسبة للحمض النووي والـRNA، يتكيف الباحثون مع نمذجة اللغة للتعامل مع سلاسل طويلة مبنية من أربعة أحرف فقط، مما يمكّن الذكاء الاصطناعي من اكتشاف مناطق التحكم في الجينوم أو التنبؤ بتأثير الطفرات. على مستوى الخلية، تتعامل مناهج جديدة مع ملف نشاط الجينات لكل خلية كوثيقة تُعدُّ «كلماتها» هي الجينات، مما يسمح للنماذج بتجميع أنواع الخلايا، وتوقع استجابة الخلايا للعلاجات وربط بيانات المختبر بالمعرفة البيولوجية السابقة.

منح الكيمياء قواعدها الرقمية الخاصة

تتعامل نماذج اللغة الكيميائية مع عالم الجزيئات الصغيرة، مثل مرشحي الأدوية. هنا يستخدم الكيميائيون رموزاً مضغوطة شبيهة بالنص لوصف البنى، يمكن إدخالها إلى نماذج اللغة كما تُدخَل الجمل. تركز النماذج من نوع المشفر على الفهم: فهي تتعلم بصمة داخلية غنية لكل جزيء تساعد في التنبؤ بخصائص مثل الذوبانية أو السمية. أما النماذج من نوع المفكك فتركز على الخلق: فتولّد جزيئات جديدة خطوة بخطوة، مع توجيهها نحو الصفات المرغوبة. تُستخدم نماذج مزدوجة تُترجم تسلسلاً إلى آخر للتنبؤ بنتيجة تفاعلات أو اقتراح طرق لتخليق مركب مستهدف. تمزج الأنظمة الأكثر تقدماً النص والرسوم الثنائية الأبعاد والأشكال الثلاثية الأبعاد والرسوم البيانية بحيث يستطيع الذكاء الاصطناعي الاستدلال عبر طرق متعددة لوصف نفس الكيمياء.

كيف تتعلم هذه النماذج وتتحسّن

تستند نماذج اللغة البيوكيميائية تحت الغطاء إلى حيل تدريب ذكية. تبدأ غالباً بالتعلم الذاتي المراقب، حيث يتعلم الذكاء الاصطناعي تخمين أجزاء مفقودة من المدخلات، مما يجبره على استيعاب البنية الأساسية دون تسميات بشرية. يسمح التدريب المتعدد المهام لنموذج واحد بممارسة العديد من المشكلات ذات الصلة في آنٍ واحد، معزّزاً مهاراته العامة. تتيح تصميمات أخرى للنموذج الرجوع إلى قواعد بيانات خارجية أثناء الإجابة، مما يؤسس مخرجاته في الكيمياء والبيولوجيا الحقيقية ويقلل الادعاءات الملفقة. بعد ذلك، تضبط جولات صغيرة من التدريب المراقب النموذج على مهام محددة مثل التنبؤ بسلامة الدواء أو تخطيط تفاعل. تستعرض المراجعة أيضاً مجموعات البيانات العامة الكبيرة والمعايير القياسية التي تجعل من الممكن الحكم على ما إذا كان نموذج جديد أفضل فعلاً، وليس فقط أكبر.

Figure 2
الشكل 2.

نحو مساعدي مختبرات بالذكاء الاصطناعي والاستخدام المسؤول

تتجاوز النماذج المنفصلة، ويسلط المؤلفون الضوء على تحول نحو أنظمة «عاملة بالوكالة» تفاعلية. في هذه الترتيبات، يمكن لنموذج اللغة استدعاء أدوات متخصصة — على سبيل المثال، برنامج يتحقق من التفاعلات، أو يبحث في الأدبيات، أو يتحكم بروبوتات المختبر — وربط مخرجاتها معاً. تُظهر العروض التجريبية المبكرة أن مثل هؤلاء الوكلاء يقترحون طرق تخليق، ويصممون تجارب وحتى يوجهون مختبرات آلية. تختم المراجعة بأن هذه النماذج البيوكيميائية، إذا اقترنت بضمانات قوية، وتقييم شفاف، وانتباه دقيق للأخلاقيات والتنظيم، قد تصبح بنية تحتية أساسية للعلم. والرسالة الرئيسة لغير المتخصصين هي أن الذكاء الاصطناعي يتعلم قراءة وكتابة شيفرة الحياة والمادة، مع إمكانية تقصير المسافة من الفكرة إلى دواء أو مادة أو فهم بيولوجي.

الاستشهاد: Ashyrmamatov, I., Gwak, S.J., Jin, SY. et al. A survey on large language models in biology and chemistry. Exp Mol Med 58, 970–980 (2026). https://doi.org/10.1038/s12276-025-01583-1

الكلمات المفتاحية: نماذج اللغة الكبيرة, اكتشاف الأدوية, بنية البروتين, نماذج اللغة الكيميائية, علم الجينوم