المفاجأة: GPT-5.5 يتفوق على Claude Fable 5 في الاختبار الأخير الوحشي للعملاء الجدد

أجرى الدراسة باحثون من جامعة كاليفورنيا، مركز بيركلي للذكاء اللامركزي المسؤول (RDI)، إلى جانب لجنة استشارية تضم أكثر من 300 خبير في هذا المجال. تم إطلاق اختبار الوكلاء الأخير (ALE).– معيار جديد وشامل مصمم لقياس ما إذا كان الذكاء الاصطناعي يمكنه بالفعل أداء عمليات عمل احترافية مجدية اقتصاديًا وطويلة الأجل.

في مفاجأة صادمة، حصل معالج GPT-5.5 OpenAI لشهر أبريل، والذي يعمل عبر مجموعة Codex، على المركز الأول المطلق في الجهاز الجديد. ALE المتصدرين بنتيجة 24.0%، متفوقًا على نموذج Mythos-class Claude Fable 5 الجديد المرتقب، والذي أصدرته بالأمس شركة Anthropic، والذي احتل المركز الثالث بنتيجة 22.0%.

وبدلا من اختبار النماذج على ألغاز ترميزية معزولة، تم تصميم تعلم التعلم والتعليم بشكل واضح كأداة لسد الفجوة بين ضجيج المقارنة الأكاديمية وتأثير العمل الحقيقي المرتبط بالناتج المحلي الإجمالي. حاليًا، تثبت البيانات أن النماذج الأكثر تقدمًا في العالم تفشل أساسًا.

مخطط المتصدرين الكامل لـ ALE. المصدر: أحدث اختبار للوكيل/جامعة كاليفورنيا في بيركلي RDI

ALE المتصدرين. المصدر: أحدث اختبار للوكيل/جامعة كاليفورنيا في بيركلي RDI

إنهاء عصر “الغش” وهشاشة طلاب الصف

يكمن التغيير الأساسي في ALE في بنية التقييم والمتطلبات التي تفرضها على الوكيل.

تاريخيًا، اعتمدت معايير الذكاء الاصطناعي على إجابات الأسئلة الثابتة أو البيئات الطرفية الضيقة القائمة على النصوص. وقد أدخلت تقييمات الوكلاء الأحدث تفاعلًا متعدد الخطوات، ولكن كانت هناك مشكلات كبيرة في التقييم.

كما لوحظ في عمليات التدقيق المستقلة الأخيرة للمعايير القديمة مثل SWE-Bench Pro، غالبًا ما يرفض المدققون الآليون الحلول الصحيحة، وقد تم القبض على بعض النماذج – وخاصة عائلة Claude Opus – “تغش” من خلال قراءة مفاتيح الإجابات المخفية في سجل Git الخاص بالحاوية بدلاً من حل المشكلة الأساسية.

تعمل ALE على تحييد هذه الثغرات الأمنية من خلال إجبار النماذج على الالتزام الصارم بإطار عمل وكيل استخدام الكمبيوتر العام (GCUA). للتمرير، لا يمكن للوكيل أن يتبع أوامر المحطة الطرفية فحسب.

تعمل الخرائط المرجعية على خمس طبقات وظيفية: الدماغ (الاستدلال)، والعيون (الإدراك البصري)، والجسم (الترتيب)، واليدين (استدعاء الأداة)، والقدمين (ركيزة التنفيذ).

يجب على الوكيل استخدام “أعينه” و”أيديه” للتنقل في الأجهزة الافتراضية التي تعمل بنظام Linux أو Windows، وتشابك نصوص shell مع عمليات الإشارة والنقر في برامج سطح المكتب الثقيلة.

والأهم من ذلك، أن ALE ترفض بشكل شبه كامل نموذج الدرجات الذي لا يمكن التنبؤ به “LLM as القاضي”، وتعتمد عليه في 6.8٪ فقط من سير عملها. إذا كانت المهمة تتضمن إنشاء شبكة ثلاثية الأبعاد أو تحليل ملفات SEC، فإن المعيار يستخدم التقييم الحتمي القائم على الكود لمقارنة قطعة أثرية الوكيل بالمراجع الأساسية للخبير.

قياس أداء المهام في 55 صناعة

تبدأ ALE بـ 1490 حالة مهمة وتتدرج لتصل إلى 5000 مهمة هائلة. ما يميز هذا المنتج هو أصالته. المهام مثبتة بإحكام التصنيف المهني الفيدرالي الأمريكي (O*NET / SOC 2018)تغطي 55 مجالًا فرعيًا للصناعات غير المادية.

تأتي مسارات العمل مباشرة من قصص ممارسي الصناعة المحترفين. يُطلب من الوكلاء إنشاء نموذج ثلاثي الأبعاد في Siemens NX، وتكوين المشاهد في Unreal Engine، وتحليل التصوير العصبي في FSLeyes، وإنشاء تأثيرات مرئية في Adobe After Effects.

وفي مواجهة مسارات العمل الحقيقية طويلة المدى هذه، تصبح القيود المفروضة على الذكاء الاصطناعي الحالي صارخة. تقسم ALE مهامها إلى ثلاثة مستويات من الصعوبة: المدى القريب، والطيف الكامل، والاختبار الأخير.

أعلى 5 أحزمة عملاء في لوحة صدارة ALE

درجة

تسخير الوكيل

النموذج الأساسي

معدل النجاح

نتيجة متوسطة

1

شفرة

جي بي تي-5-5

24.0%

42.8%

2

لكن مخلب

جي بي تي-5-5

23.0%

45.8%

3

كلود كودا

كلود-خرافة-5

22.0%

40.5%

4

OpenClaw

جي بي تي-5-5

21.1%

41.0%

5

واجهة سطر أوامر المؤشر

الملحن-2-5

20.4%

38.5%

يتزامن انتصار GPT-5.5 مع التحليل الأخير الذي أجرته جهة خارجية والذي يشير إلى أن نماذج OpenAI أصبحت الآن أفضل في متابعة المطالبات المعقدة والمتعددة الأجزاء عن كثب. من ناحية أخرى، أبلغ المستخدمون أن بنية Anthropic’s Claude يمكنها أحيانًا “نسيان” التعليمات متعددة الأجزاء وإسقاط الخطوات المطلوبة في منتصف التشغيل – وهو خلل فادح في مسار ALE الصارم.

وعلى الرغم من أن معدل النجاح البالغ 24.0% يكفي للفوز باللقب، إلا أن سقف الأداء المطلق يظل منخفضًا للغاية.

في أصعب مستوى “الاختبار النهائي” – الذي يمثل الحد الأقصى للصعوبة المهنية – تتمتع معظم التكوينات، بما في ذلك Claude Opus 4.8 القديم من Anthropic وGemini CLI من Google، بمعدل نجاح مدمر يبلغ 0.0%.

استكشاف أخطاء التلوث المرجعي وإصلاحها

تتمثل إحدى الثغرة الأساسية في تقييم الذكاء الاصطناعي الحديث في “تلوث الأنماط” ــ وهي الظاهرة حيث تتسرب أسئلة الاختبار حتما إلى بحيرات واسعة من البيانات المستخدمة لتدريب نماذج الجيل التالي. بمجرد أن يتذكر النموذج النقطة المرجعية، يصبح التقييم عديم الفائدة تمامًا.

تعالج ALE هذه المشكلة من خلال استراتيجية التنفيذ ذات الاستخدام المزدوج. يعمل المشروع كمبادرة بحثية مفتوحة المصدر ولكنه يحرس بيانات التقييم الخاصة به عن كثب. يتم إتاحة حوالي 10% فقط من مجموعة البيانات (حوالي 150 مهمة) للجمهور على منصات مثل GitHub وHugging Face. أما المهام المتبقية والتي يزيد عددها عن 1300+ فهي خاصة تمامًا.

بالنسبة للمطورين ومقيمي المؤسسات، هذا يعني أن ALE تعمل بمثابة “نقطة مرجعية حية”. يتم دمج المهام الخاصة بشكل منهجي في المجموعة العامة مع مرور الوقت، في حين يتم استبدال المهام العامة المتقاعدة.

ويضمن هذا الإصدار المتداول بقاء سطح التقييم غير ملوث عبر أجيال الطراز اللاحقة، مما يمنح المشترين من الشركات الثقة في أن درجة الوكيل عالية حصللا أتذكر.

بالإضافة إلى ذلك، توفر ALE الشفافية من خلال تتبع النتائج “الكاملة” و”غير المرخصة”. نظرًا لأن العمل الاحترافي الحقيقي غالبًا ما يتطلب برامج مملوكة مدفوعة الأجر، فإن لوحة المتصدرين “الكاملة” تتضمن وظائف تعتمد على أدوات CAD التجارية أو واجهات برمجة التطبيقات المدفوعة أو مجموعات البيانات المرخصة.

تعمل الطبقة الخالية من الترخيص على التخلص من هذه المهام المعتمدة على الترخيص لتوفير مقارنة شفافة مثل بالمثل باستخدام الأدوات المتاحة مجانًا فقط، لذلك لا تتم مكافأة النماذج ببساطة مقابل الوصول إلى برامج المؤسسة المدفوعة.

خلاصة القول: ولكن يظهر أنه حتى أفضل النماذج والأدوات تحتاج إلى تحسين

بالنسبة للمطورين المحبطين بسبب التناقض بين مطالبات التسويق وأداء الإنتاج الفعلي، فإن منحنى تصنيفات ALE الوحشي له ما يبرره إلى حد كبير.

زينجي تشينتواصل طالب الدراسات العليا في معهد ماساتشوستس للتكنولوجيا (MIT) والمساهم في البيانات في المشروع مع X للإعلان عن الإطلاق، وشارك صور الورقة وقائمة مذهلة تضم أكثر من 100 مؤسسة تأليف مشتركة.

كتب تشين: “نقدم لك اختبار الوكيل النهائي (ALE).” “تم تطويره بواسطة أكثر من 300 خبير في المجال من أكثر من 100 مؤسسة. ويغطي 55 مجالًا صناعيًا. يتمتع Claude Opus 4.8 بمعدل نجاح يبلغ 0.0% في أصعب مجموعة فرعية. ويسعدني أن أتمكن من المساهمة في هذا المعيار.”

في منشور متابعة يسلط الضوء على الرابط الخاص بمقالة ArXiv Hugging Face، أضاف تشين:

“عمل قوي للغاية من قبل مديري المشاريع @YiyouSun @Xinyang_Han_ @dawnsongtweets و @BerkeleyRDI.”

وبينما تستثمر الشركات المليارات في المراهنة على عملاء الذكاء الاصطناعي، فإنها بحاجة ماسة إلى بوصلة تشير إلى الشمال الحقيقي. إذا تمكن الوكيل أخيرًا من التغلب على تحدي اختبار الوكيل الأخير، فلن يقتصر الأمر على اجتياز الاختبار فحسب – بل سيكون دليلاً على استعداده للانضمام إلى القوى العاملة. وحتى ذلك الحين، ستكون معدلات النجاح الواقعية على لوحة المتصدرين بمثابة اختبار واقعي ضروري لنظام الذكاء الاصطناعي البيئي بأكمله.

رابط المصدر