Clear Sky Science · ar

تقييم قدرات التفكير التباعدي لدى نماذج اللغة الكبيرة لتوليد الأفكار العلمية بسياق ضئيل

2026-03-07 · العودة إلى الفهرس

لماذا يهم هذا لعشاق العلم العاديين

يرجع جزء كبير من الحماس الحالي تجاه الذكاء الاصطناعي إلى براعته الظاهرة في الاختبارات والامتحانات. لكن الاختراقات العلمية نادراً ما تأتي من الإجابة على أسئلة مسابقات؛ فهي تبدأ بأفكار غريبة أو نصف مكتملة تُوقظها كلمة واحدة أو حدس. تطرح هذه الورقة سؤالاً عملياً له عواقب كبيرة: عندما تمنح نماذج اللغة الكبيرة اليوم تلميحاً ضئيلاً—كلمة علمية واحدة فقط—هل يمكنها فعلاً ابتكار أفكار بحثية جديدة ومعقولة، وكيف يرتبط ذلك «الشرر الإبداعي» بمقاييس الذكاء الاصطناعي المألوفة؟

من آلات حل الاختبارات إلى شركاء الفكرة

معظم معايير القياس الحالية تعامل الذكاء الاصطناعي كطالب فائق: تُزود النماذج بسياق غني—مثل ملخصات كاملة أو أوصاف مسائل—ثم تُقيَّم على مدى وصولها للإجابة الصحيحة. هذا الإعداد يقيس بشكل أساسي التفكير التجميعي: تضييق الخيارات نحو حل واحد. يجادل المؤلفون بأن المراحل المبكرة من العلم مختلفة تماماً. غالباً ما يبدأ العالم بموضوع واحد بالكاد، ثم يربط حرّاً ويولّد عشرات الأسئلة والاتجاهات المحتملة. لالتقاط هذا النوع من التفكير التباعدي في الآلات، قدموا LiveIdeaBench، معياراً جديداً يقلل عمداً السياق إلى كلمة علمية واحدة—مثل «المجهر» أو «توقع الطقس»—ويطلب من النماذج اقتراح أفكار بحثية قصيرة ومحددة.

كيف يعمل المعيار الجديد

يشمل LiveIdeaBench نحو 1180 كلمة علمية شائعة عبر 22 مجالاً، من الفيزياء إلى الطب والعلوم الاجتماعية. لكل كلمة مفتاحية، تُحفَّز أكثر من 40 من نماذج اللغة الرائدة لتوليد أفكار علمية موجزة. بعدها تعمل مجموعة ديناميكية من النماذج ذات الأداء العالي كـ"قُضاة" لتقيّم كل فكرة عبر خمسة أبعاد مستلهمة من مفهوم الإبداع: مدى أصالتها، وإن كانت تبدو قابلة للتنفيذ، ووضوح التعبير عنها، وعدد الأفكار المميزة التي يمكن للنموذج إنتاجها من نفس الدلالة (الطلاقة)، ومدى اتساق أداءه عبر مواضيع مختلفة جداً (المرونة). يقوم عدة قضاة بتسجيل درجات لكل فكرة، وتُؤخذ المتوسطات للتقليل من تحيّز نماذج فردية. يُحدَّث المعيار بانتظام، سواء في الكلمات المفتاحية المستخدمة أو النماذج التي يُقيِّمها، ليواكب تقدم العلم وقدرات الذكاء الاصطناعي.

ما تكشفه النتائج عن إبداع الذكاء الاصطناعي

تُظهر اختبارات واسعة النطاق أن الأداء على LiveIdeaBench يختلف بشكل لافت عن الترتيب في لوائح "الذكاء العام" التقليدية. بعض النماذج المعروفة بتفوقها في الرياضيات والترميز والاستدلال لا تتألق عند توليد أفكار علمية متنوعة وجديدة من محفزات ضئيلة. وعلى النقيض، تُظهر نماذج أخرى ذات درجات عامة متواضعة، بما في ذلك نماذج أصغر نسبياً، قدرة تباعدية قوية بشكل مفاجئ، أحياناً مساوية أو متفوقة على الأنظمة الرائدة في مقاييس متعلقة بالإبداع. وتكشف الدراسة أيضاً عن مقايضة بين الجرأة والسلامة: تميل النماذج التي تقترح اتجاهات أصلية جداً إلى أن تكون أضعف في القابلية للتنفيذ، بينما تفضّل نماذج أخرى أفكاراً أكثر عملية لكن أقل إثارة. والأهم من ذلك، أن الإجابات الأطول والأكثر تفصيلاً لا تُنتج بالضرورة أفكاراً أفضل؛ فكمية الكلمات وحدها مرتبطة بالجودة ارتباطاً ضعيفاً.

نظرة داخل آليات التقييم

لمحاكاة مراجعة الخبراء على نطاق واسع، يعتمد المؤلفون بشكل كبير على "نماذج اللغة الكبيرة كقضاة". تقوم مجموعة مُنتقاة من النماذج القوية بتقييم الأصالة والقابلية والوضوح بشكل مستقل، وتتحقق عملية منفصلة مما إذا كانت عدة أفكار من نفس النموذج والكلمة المفتاحية مختلفة فعلاً أم مجرد إعادة صياغة. تُقاس المرونة من خلال النظر إلى مدى تماسك درجات النموذج في مجالاته الأضعف، وليس فقط في المجالات المألوفة. كما يحلل الفريق كيف يؤثر التصميم المعماري واستراتيجيات التدريب وسياسات السلامة على المخرجات الإبداعية. أحياناً تمتنع النماذج ذات مرشحات السلامة الأكثر صرامة عن الإجابة على كلمات حساسة معينة، مما يضر بدرجاتها على الرغم من سلوكها المسؤول. ويُشير المؤلفون إلى أن استخدام قضاة ذكاء اصطناعي ينطوي على مخاطر—مثل الخضوع أو الثغرات في مجالات علمية غير مألوفة—إلا أنهم يظهرون اتفاقاً أولياً مع خبراء بشريين في مجال رياضيات متخصص.

الدلالات لمستقبل الاكتشاف المدعوم بالذكاء الاصطناعي

لغير المتخصص، الخلاصة بسيطة لكنها قوية: كون النظام جيداً في الاختبارات لا يجعله تلقائياً شريكاً جيداً للعصف الذهني العلمي. يبرز التفكير التباعدي—القدرة على اشتقاق العديد من الأفكار البحثية المختلفة والمفيدة من تلميح واحد—كمهارة جزئياً مستقلة يتجاهلها معظم المعايير الحالية.

يجادل المؤلفون أنه إذا أردنا ذكاءً اصطناعياً يساعد العلماء فعلاً على اكتشاف الاكتشاف الكبير التالي، فسنحتاج إلى أدوات تقييم جديدة مثل LiveIdeaBench واستراتيجيات تدريب تكافئ التنوع، لا الدقة وحدها. وعلى المدى الطويل، قد يؤدي ذلك إلى مجموعة أدوات من "المفكرين المشاركين" المتكاملين: بعضهم مهيأ للأفكار الجريئة عالية المخاطر، وآخرون لتنقيحها والتحقق منها عملياً، جميعهم يعملون جنباً إلى جنب مع الفضول البشري بدلاً من استبداله.

الاستشهاد: Ruan, K., Wang, X., Hong, J. et al. Evaluating LLMs' divergent thinking capabilities for scientific idea generation with minimal context. Nat Commun 17, 3625 (2026). https://doi.org/10.1038/s41467-026-70245-1

الكلمات المفتاحية: إبداع الذكاء الاصطناعي, التفكير التباعدي, توليد الأفكار العلمية, نماذج اللغة الكبيرة, معايير القياس