- قرر باحثو مايكروسوفت أن درجات LLM الحالية ليست جيدة للمهام طويلة المدى
- المزيد من التفاعلات والبنية الأقل تقلل بشكل كبير من الأداء المعياري
- “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة”
جديد الاختبارات اكتشف ثلاثة من موظفي Microsoft مشكلة أساسية قد تعيق الذكاء الاصطناعي الفعال القائم على الوكيل، وهي أن معظم نماذج الذكاء الاصطناعي لا يمكنها في الواقع دعم سير العمل طويل الأمد بشكل موثوق.
ولتحديد النتائج التي توصلوا إليها، قدم الباحثون معيار DELEGATE-52 الجديد، والذي يوفر مقاييس لـ 52 قطاعًا بما في ذلك البرمجة والمحاسبة والعلوم والمزيد.
في النهاية، خلص المقال إلى أن برامج LLM الحالية “تقدم أخطاء نادرة ولكنها خطيرة تؤدي إلى إفساد المستندات بصمت، وتصبح أكثر خطورة على مدار فترات طويلة من التفاعل.”
الذكاء الاصطناعي ليس جيدًا بعد في المهام طويلة الأمد
وتغطي الدراسة بعضًا من أحدث نماذج الذكاء الاصطناعي، بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. حتى أن هذه النماذج قد “تفسد ما متوسطه 25% من محتوى المستند في نهاية عمليات سير العمل الطويلة”، مع كون النماذج الأصغر أكثر عرضة للأخطاء.
يستخدم معيار DELEGATE-52 مستندات حقيقية تحتوي على حوالي 15000 كلمة. الرموز المميزة وقدمت من 5 إلى 10 مهام تحرير معقدة باستخدام “محاكاة التتابع ذهابًا وإيابًا” التي تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. يتيح ذلك للباحثين قياس مدى فعالية كل نموذج في إعادة بناء المستندات إلى شكلها الأصلي.
كان أداء النماذج أفضل في المجالات شديدة التنظيم والقابلة للبرمجة، وخلص باحثو مايكروسوفت إلى أن “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة.” من ناحية أخرى، في سير عمل اللغة الطبيعية، والمجالات الإبداعية، والمستندات شبه المنظمة، واجه المصممون صعوبات.
توضح المقالة أيضًا أنه كلما زاد طول الرمز المميز، زاد احتمال حدوث مشكلات في نموذج الذكاء الاصطناعي.
لم تختلف النماذج الحدودية في قدرتها على إزالة الأخطاء، بل في قدرتها على تأخير الأخطاء فقط. بعض النماذج الأخرى التي اختبرها باحثو مايكروسوفت تضمنت عدة أجيال من GPT-5 وGPT-4 وخيارات Claude ونماذج Gemini وواحد من كل من Mistral وxAI وMoonshot – بإجمالي 19 نموذجًا مختلفًا من ست عائلات.
حصل Gemini 3.1 Pro على المركز الأول بنتيجة 80.9% على مقياس DELEGATE-52 بعد 20 تفاعل؛ كلود 4.6 Opus (73.1%) وGPT-5.4 (71.5%) يكملان المراكز الثلاثة الأولى، مع GPT 5 Nano (10.0%) في المركز الأخير.
باختصار، يخلص المقال إلى أن نماذج الذكاء الاصطناعي الحالية ليست قوية بما يكفي ليتم الوثوق بها في سير العمل المستقل على المدى الطويل، مما يسلط الضوء على المجالات الرئيسية التي يحتاج مصممو النماذج إلى التركيز عليها في المستقبل ويقدم معيارًا آخر لتحديد قدرات النموذج.
بواسطة يسجل
اتبع TechRadar على أخبار جوجل و أضفنا كمصدرك المفضل لتلقي أخبار ومراجعات وآراء الخبراء حول قنواتك.











