الرئيسية تكنولوجيا “تقدم برامج LLM الحالية أخطاء كبيرة عند تحرير أوراق العمل”: وجد باحثو...

تكنولوجيا

“تقدم برامج LLM الحالية أخطاء كبيرة عند تحرير أوراق العمل”: وجد باحثو Microsoft أن معظم نماذج الذكاء الاصطناعي تعاني من المهام الطويلة الأمد – لذلك ربما لا تثق بها تمامًا بعد

بواسطة

12 مايو 2026

قرر باحثو مايكروسوفت أن درجات LLM الحالية ليست جيدة للمهام طويلة المدى
المزيد من التفاعلات والبنية الأقل تقلل بشكل كبير من الأداء المعياري
“بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة”

جديد الاختبارات اكتشف ثلاثة من موظفي Microsoft مشكلة أساسية قد تعيق الذكاء الاصطناعي الفعال القائم على الوكيل، وهي أن معظم نماذج الذكاء الاصطناعي لا يمكنها في الواقع دعم سير العمل طويل الأمد بشكل موثوق.

ولتحديد النتائج التي توصلوا إليها، قدم الباحثون معيار DELEGATE-52 الجديد، والذي يوفر مقاييس لـ 52 قطاعًا بما في ذلك البرمجة والمحاسبة والعلوم والمزيد.

الذكاء الاصطناعي ليس جيدًا بعد في المهام طويلة الأمد

وتغطي الدراسة بعضًا من أحدث نماذج الذكاء الاصطناعي، بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. حتى أن هذه النماذج قد “تفسد ما متوسطه 25% من محتوى المستند في نهاية عمليات سير العمل الطويلة”، مع كون النماذج الأصغر أكثر عرضة للأخطاء.

يستخدم معيار DELEGATE-52 مستندات حقيقية تحتوي على حوالي 15000 كلمة. الرموز المميزة وقدمت من 5 إلى 10 مهام تحرير معقدة باستخدام “محاكاة التتابع ذهابًا وإيابًا” التي تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. يتيح ذلك للباحثين قياس مدى فعالية كل نموذج في إعادة بناء المستندات إلى شكلها الأصلي.

كان أداء النماذج أفضل في المجالات شديدة التنظيم والقابلة للبرمجة، وخلص باحثو مايكروسوفت إلى أن “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة.” من ناحية أخرى، في سير عمل اللغة الطبيعية، والمجالات الإبداعية، والمستندات شبه المنظمة، واجه المصممون صعوبات.

توضح المقالة أيضًا أنه كلما زاد طول الرمز المميز، زاد احتمال حدوث مشكلات في نموذج الذكاء الاصطناعي.

لم تختلف النماذج الحدودية في قدرتها على إزالة الأخطاء، بل في قدرتها على تأخير الأخطاء فقط. بعض النماذج الأخرى التي اختبرها باحثو مايكروسوفت تضمنت عدة أجيال من GPT-5 وGPT-4 وخيارات Claude ونماذج Gemini وواحد من كل من Mistral وxAI وMoonshot – بإجمالي 19 نموذجًا مختلفًا من ست عائلات.

حصل Gemini 3.1 Pro على المركز الأول بنتيجة 80.9% على مقياس DELEGATE-52 بعد 20 تفاعل؛ كلود 4.6 Opus (73.1%) وGPT-5.4 (71.5%) يكملان المراكز الثلاثة الأولى، مع GPT 5 Nano (10.0%) في المركز الأخير.

باختصار، يخلص المقال إلى أن نماذج الذكاء الاصطناعي الحالية ليست قوية بما يكفي ليتم الوثوق بها في سير العمل المستقل على المدى الطويل، مما يسلط الضوء على المجالات الرئيسية التي يحتاج مصممو النماذج إلى التركيز عليها في المستقبل ويقدم معيارًا آخر لتحديد قدرات النموذج.

يسجل

اتبع TechRadar على أخبار جوجل و أضفنا كمصدرك المفضل لتلقي أخبار ومراجعات وآراء الخبراء حول قنواتك.

رابط المصدر

آخر الأخبار

مسؤولون أوكرانيون يصنفون رئيس أركان زيلينسكي السابق كمشتبه به في تحقيق...

فيديو. المغاربة يستولون على بلدة ساحلية في شمال إيطاليا

قامت JBL للتو بتحديث خط سماعات الرأس التي تعمل باللمس والتي...

أفغانستان: هجوم باكستاني مميت على مركز لإعادة التأهيل في كابول

شباك التذاكر في الصيف: تصل مبيعات تذاكر عطلة نهاية الأسبوع إلى...

يتقدم فوجيموري المحافظ وسانشيز اليساري في الجولة الأولى من الانتخابات الرئاسية...

الذكاء الاصطناعي هو مشكلة قيادة، وليس مشكلة تكنولوجية

هانا هاربر مصدومة بفوز كاري أندروود التاريخي ببرنامج “أمريكان أيدول”.

واجه رئيس الوزراء البريطاني كير ستارمر دعوات للاستقالة

تقول أليسون إلسورث، المؤسس المشارك لشركة Poppi، إن عليك التضحية بالتوازن...

فئة