مع انتقال أنظمة الذكاء الاصطناعي من روبوتات الدردشة ومساعدي البرمجة إلى المختبرات العلمية والفصول الدراسية وأماكن العمل، يصبح من الضروري معرفة ما الذي تستطيع فعله وما الذي لا تستطيع فعله. بطاقات الأداء الحالية للذكاء الاصطناعي غالبًا ما تكون درجات اختبار مفردة على معايير محدودة، وتخبرنا القليل عن سبب نجاح النظام أو فشله—أو عن كيفية تصرفه أمام نوع جديد من المشكلات. تقترح هذه الورقة طريقة جديدة لقياس الذكاء الاصطناعي تهدف لأن تكون منهجية ودائمة كما هو الحال مع مقاييس درجة الحرارة للطقس، مما يمنحنا فهماً أوضح لنقاط القوة والضعف والأداء المستقبلي للأنظمة.
من اختبارات متفرقة إلى مقاييس مشتركة
تشبه معظم تقييمات الذكاء الاصطناعي الحالية امتحانات مدرسية تُصمم حالةً بحالة: كل معيار يجمع معًا مهارات وصعوبات متعددة، والدرجة النهائية تكون نسبة مئوية واحدة. وتعتمد تلك النسبة بقدر كبير على خصوصيات الاختبار بقدر ما تعتمد على قدرات النظام. يجادل المؤلفون بأن هذا يجعل من المستحيل التنبؤ بالأداء على مهام جديدة ويؤدي إلى الالتباس—على سبيل المثال، عندما يقول معيار رياضي إن نموذجًا "يستدل جيدًا" بينما يوحي معيار آخر بعكس ذلك. بدلًا من اقتصار التقييم على متوسط الدرجات، يقترحون وصف كل مهمة من حيث مقدار ما تطلبه على مجموعة من المقاييس العامة المفهومة بشريًا.
بناء مسطرة مشتركة لقدرات الذكاء الاصطناعي
لإنشاء هذه المسطرة المشتركة، صمم الفريق 18 مقياس طلب تغطي مهارات ذهنية ومجالات معرفية واسعة. تتضمن هذه القدرات مثل فهم اللغة، تتبع سلاسل الاستدلال، التأمل في المعرفة الشخصية، ومعرفة الحقائق من العلوم الطبيعية والاجتماعية والتطبيقية والرسمية. كما يتتبعون «مطالب خارجية» يمكن أن تجعل المشكلات أصعب أو أسهل دون تغيير المهارة الأساسية، مثل مدى غرابة السؤال، مقدار المعلومات المكدسة فيه، أو ما إذا كان متعدد الاختيارات. يمتد كل مقياس من صفر طلب إلى مستويات متزايدة التحدي، مصممة تقريبًا بحيث يعني الصعود مستوى واحد أن عددًا أقل بكثير من الناس—أو النماذج—ينبغي أن يكون قادرًا على حل العنصر.
تعليم الآلات لتصنيف ما تطلبه المهام فعلاً الشكل 1.
كان من المستحيل على لجان الخبراء وحدها أن تقيم يدويًا آلاف الأسئلة على 18 مقياسًا، لذا استخدم المؤلفون نماذج لغوية متقدمة ذاتها كمعلّقين. كتبوا مقاييس تقييم مفصلة مع أمثلة لكل مستوى من كل مقياس، ثم طلبوا من نموذج (GPT‑4o) أن يعين مستويات الطلب لأكثر من 16,000 سؤال مأخوذ من 20 معيارًا حديثًا للذكاء الاصطناعي. راجع الخبراء البشر جزءًا منها ووجدوا اتفاقًا قويًا مع تسميات النموذج. بعد التوصيف، يمكن تصور كل معيار كـ "ملف طلب" يبيّن مقدار ما يمارسه فعلاً من كل قدرة. يكشف ذلك أن العديد من الاختبارات المشهورة لا تقيس ما قصد مصمموها: فبعضها يدّعي التركيز على الاستدلال لكنه يعتمد فعليًا على معرفة وقائعية غامضة، والبعض الآخر يتجمع عند مستوى صعوبة واحد، ونادرًا ما تكون الاختبارات حساسة (تغطي نطاقًا جيدًا من المستويات) ومحددة في الوقت ذاته (تتجنب المهارات غير المقصودة).
قراءة منحنيات قدرة الذكاء الاصطناعي بدلًا من الدرجات الخام
بمقاييس موحدة مطبقة على المهام، الخطوة التالية هي رؤية كيف تتعامل أنظمة الذكاء الاصطناعي المختلفة مع تصاعد الطلبات على كل بعد. اختبر المؤلفون 15 نموذجًا لغويًا كبيرًا من ثلاث عائلات رئيسية ونظروا، لكل مقياس، إلى احتمال النجاح مع تزايد صعوبة المهام. يؤدي تركيب منحنيات ناعمة عبر هذه النقاط إلى "مستوى قدرة" لكل نموذج على كل مقياس: مستوى الطلب الذي ينجح عنده بحوالي نصف الحالات عندما لا تكون المطالب الأخرى أعلى. على عكس الدقة الخام، لا تعتمد درجات القدرة هذه على التوزيع الخاص بالعناصر السهلة والصعبة في معيار معين. تظهر الملفات الناتجة أنماطًا واضحة: النماذج الأكبر تتحسن بشكل رئيسي في المعرفة الواقعية، في حين أن النماذج الخاصة بـ"الاستدلال" تكسب المزيد في التفكير العددي والمنطقي، وفي تحديد المعلومات ذات الصلة، وحتى في نمذجة عقول وسياقات اجتماعية. تكشف المنحنيات أيضًا عن تناقص العائد: فزيادة عدد المعاملات ببساطة تؤدي في النهاية إلى مكاسب قدرية متواضعة فقط.
استخدام ملفات الطلب للتنبؤ والتحكم في سلوك الذكاء الاصطناعي الشكل 2.
لأن كلًا من المهام والأنظمة باتا الآن على نفس مجموعة المقاييس، يمكن للمؤلفين اعتبار التقييم مشكلة تنبؤية. دربوا "مقوِّمين" بسيطين بتعلم الآلة يأخذون كمدخلات مستويات الطلب الـ18 لكل سؤال ويخرجون احتمال أن يجيب ذكاء اصطناعي معين بشكل صحيح. تتنبأ هذه المقوِّمات بالنجاح بدقة عالية، ليس فقط على المهام المألوفة ولكن أيضًا على مهام جديدة كليًا وعلى معايير لم تُستخدم في التدريب. تتفوق هذه المقاربات على أساليب الصندوق الأسود الأثقل التي تعتمد على تضمينات نصية أو تعديل نماذج كبيرة مباشرة. هذا يمكّن استخدامات عملية مثل توجيه كل استعلام وارد إلى النموذج الأكثر احتمالًا للتعامل معه بأمان، أو رفض الاستعلامات التي تقع خارج منطقة موثوقية أي نموذج قبل حدوث ضرر.
خطوة نحو علم تقييم الذكاء الاصطناعي
يخلص المؤلفون إلى أن مقاييس الطلب والقدرة العامة يمكن أن تغير طريقة حكمنا ونشرنا للذكاء الاصطناعي. بدلًا من سباق المطاردة وراء معايير أكبر وأقصر عمرًا ودرجات مُجمَّعة غامضة، يمكننا بناء إطار قياس مستقر وقابل للتوسع يشرح أسباب فشل الأنظمة، ويقارنها بعدل عبر المجالات، ويتوقع سلوكها على مهام جديدة. تمامًا كما جعلت الوحدات المعيارية في الفيزياء الهندسة الدقيقة ممكنة، يمكن لمجموعة مشتركة ومصممة جيدًا من المقاييس المعرفية أن تدعم استخدامًا أكثر أمانًا وتوقعًا للذكاء الاصطناعي في السنوات القادمة.
الاستشهاد: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
الكلمات المفتاحية: تقييم الذكاء الاصطناعي, المعايير المرجعية, نماذج اللغة الكبيرة, التقييم التنبؤي, أمان الذكاء الاصطناعي