Clear Sky Science · ar

ReactionSeek: التنقيب في بيانات الأدبيات واكتشاف المعرفة باستخدام نماذج اللغة الكبيرة في التخليق العضوي

· العودة إلى الفهرس

لماذا يهم تحويل أوراق الكيمياء القديمة إلى بيانات

تعتمد الاكتشافات الحديثة في الطب والمواد والتقنيات الخضراء بشكل متزايد على الحواسيب لرصد الأنماط واقتراح جزيئات جديدة. لكن معظم المعارف الكيميائية لا تزال مدفونة في مئات السنين من الأوراق البحثية، المصاغة للبشر وليس للآلات. يعرض هذا المقال ReactionSeek، نظاماً يعَلِّم الذكاء الاصطناعي قراءة هذه الأوراق، واستخراج التفاصيل التجريبية الهامة، وتحويلها إلى بيانات منظمة. لأي شخص مهتم بكيفية تغيير الذكاء الاصطناعي للعلم — من اكتشاف الأدوية إلى التصنيع الأنظف — يبيّن هذا العمل كيف يمكننا أخيراً فتح «الأرشيف الخفي» الواسع للكيمياء.

Figure 1
Figure 1.

مشكلة المعرفة الكيميائية المخفية

يُعد التخليق العضوي، فن بناء جزيئات معقدة من بسيطة، محور الكيمياء. نشر الباحثون عشرات الآلاف من الوصفات التفصيلية التي تصف المكونات المستخدمة، بكميات معينة، وفي درجات حرارة محددة، وبنجاحات مختلفة. ومع ذلك، تشتت هذه المعلومات عبر فقرات نصية ورسوم بيانية وجداول وملفات داعمة. تغطي قواعد البيانات الحالية جزءاً ضئيلاً فقط من هذا المشهد، وغالباً ما تكون مملوكة وخاصة، وأحياناً تفوت تفاعلات غير نمطية. يمكن للتجارب المختبرية الآلية أن تولّد مجموعات بيانات مرتبة، لكنها مكلفة وتستكشف نطاقاً ضيقاً من الكيمياء. ونتيجة لذلك، تتدرب معظم أدوات الذكاء الاصطناعي على بيانات مبسطة ومُنقّاة ولا تعكس تماماً ثراء العمل المخبري الفوضوي.

طريقة جديدة لتعليم الذكاء الاصطناعي قراءة أوراق الكيمياء

يتعامل ReactionSeek مع هذا التحدي عن طريق الجمع بين نماذج اللغة الكبيرة — أنظمة الذكاء الاصطناعي المدربة على فهم وتوليد النصوص والصور — وبرمجيات كيميائية متخصصة. يعمل الإطار كقارئ آلي يتصفح مقالات من سلسلة Organic Syntheses الطويلة. أولاً، يدرس مخططات التفاعل ورسوم البنى الجزيئية، ويربط كل جزيء مرسوم بدوره في التفاعل، مثل المادة المبدئية أو المنتج. ثم يقرأ الإجراءات المكتوبة لاستخراج تفاصيل مثل المركبات المستخدمة، والكميات، ومدة التفاعل، والعائدات المحققة. أخيراً، يقوم بتوحيد كل شيء — الأسماء والوحدات والصيغ — حتى يمكن دمج آلاف المقالات المختلفة في مجموعة بيانات متماسكة وقابلة للبحث.

كيف يستخرج النظام المعلومات من الصور والنصوص والأرقام

بالنسبة للصور، يستخدم ReactionSeek نموذج لغة قادر على الرؤية لتحديد أي البنى المرسومة تتوافق مع أي تسميات، وما إذا كانت تعمل كمواد متفاعلة أم منتجات. ثم يحول مُعرِّف رسومات كيميائية منفصل هذه الأشكال إلى صيغ جزيئية رقمية يمكن للحواسيب التعامل معها. أما النصوص، فتُوجَّه نماذج اللغة عبر مطالبات مُصاغة بعناية تتلاءم مع الأسلوب المعقّد للوصفات التجريبية، مما يساعدها على اكتشاف كل مركب، ومطابقته بعنوانه، والتقاط الشروط مثل درجة الحرارة والوقت والمذيب. يتقدم النظام خطوة إضافية باستخراج بيانات القياس المعقدة، مثل مطيافية الرنين المغناطيسي النووي وطيف الكتلة، والتي يعتمد عليها الكيميائيون لتأكيد أن المركب المصنوع هو الصحيح. حيث تتعثر أدوات الذكاء الاصطناعي العامة — مثل ترجمة أسماء كيميائية طويلة إلى هياكل دقيقة — يقوم ReactionSeek بالمقارنة المتقاطعة مع قواعد بيانات كيميائية عامة وبرامج متخصصة لتحويل الاسم إلى بنية، مستخدماً نموذج اللغة أساساً كأداة توافق ذكية بدلاً من اتخاذ القرار وحده.

Figure 2
Figure 2.

من مجلة واحدة إلى قرن من الاتجاهات الكيميائية

لاختبار المنهج، شغّل المؤلفون ReactionSeek على 100 مجلد من Organic Syntheses، تغطي تفاعلات نُشرت من 1921 إلى 2021. عالج النظام أكثر من ثلاثة آلاف ورقة في دقائق لكل مقال بدلاً من الساعات العديدة التي يحتاجها أمين بيانات بشري. سجّل مكونات التفاعل والظروف والنتائج بدقة واسترجاع تفوق 95% للحقلّات الرئيسية. تحتوي مجموعة البيانات المنظمة حديثاً على ما يقرب من أربعة آلاف تفاعل مميز وآلاف المركبات الفريدة، كلها على مقياس غرامي موثوق وتم التحقق منها من قبل المجتمع. بالإضافة إلى ذلك، بنى الباحثون مساعداً تفاعلياً يسمى SynChat، يتيح للكيميائيين طرح أسئلة باللغة الطبيعية — مع إمكانية تضمين جزيئات مرسومة — والحصول على إجابات مستندة إلى الأدبيات المستخرجة، تتضمن روابط إلى الإجراءات الأصلية.

إتاحة اكتشاف الأنماط عبر قرن من التجارب للذكاء الاصطناعي

بعد تنظيم بيانات التفاعلات، استخدم الفريق نموذج لغة متقدم آخر للبحث عن اتجاهات عامة عبر الزمن. من دون توجيه صريح لما يتوقعونه، أعاد الذكاء الاصطناعي اكتشاف تحولات معروفة في المجال: صعود التحفيز اللامتناظر بعد حوالي 1980، والتحول من كواشف المجموعات الرئيسية البسيطة إلى محفزات معقدة من المعادن الانتقالية، والتراجع التدريجي عن المعادن شديدة السمية. كما رصد تغيّرات في تفضيلات شريك التفاعل والمعادن التحفيزية، مما يعكس كيف تطورت أدوات الكيميائيين عبر العقود. تشير هذه النتائج إلى أنه عند تغذية الذكاء الاصطناعي بمجموعة بيانات غنية وموثوقة، يمكنه توفير رؤى تاريخية واستراتيجية تتماشى مع فهم الخبراء.

ماذا يعني هذا لاكتشاف الكيمياء في المستقبل

بعبارات بسيطة، يُعد ReactionSeek جسرًا بين أرشيفات الكيمياء المرهقة وأدوات الذكاء الاصطناعي التي تعد بتسريع الاكتشافات المستقبلية. من خلال أتمتة العمل الممل المتمثل في القراءة والاستخراج والتنظيف لتفاصيل التفاعلات، يوفر بيانات جاهزة عالية الجودة يمكنها تعزيز نماذج تنبؤية أفضل، وتخطيط مختبري أكثر ذكاءً، وأدوات بحث أكثر بديهية للعلماء. وعلى الرغم من أن النظام لا يزال يواجه تحديات مع الأسماء الكيميائية النادرة والجداول المعقدة والتعرّف غير الكامل على البنى، إلا أنه يثبت بالفعل أن تصميم المطالبات بعناية ومزج ذكي بين أدوات الذكاء الاصطناعي والقواعد يمكن أن يحول الأدبيات العلمية غير المهيكلة إلى قاعدة معرفة حية. بالنسبة للكيميائيين وغير المتخصصين على حد سواء، يشير هذا إلى مستقبل يمكن فيه استكشاف عقود من العمل التجريبي والتساؤل بشأنه وتوسيعه بمساعدة الآلات الذكية.

الاستشهاد: Li, J., Li, M., Yang, Q. et al. ReactionSeek: LLM-powered literature data mining and knowledge discovery in organic synthesis. Nat Commun 17, 3356 (2026). https://doi.org/10.1038/s41467-026-70180-1

الكلمات المفتاحية: تنقيب البيانات الكيميائية, نماذج اللغة الكبيرة, التخليق العضوي, استخراج النصوص العلمية, الذكاء الاصطناعي في الكيمياء