“تقدم برامج LLM الحالية أخطاء كبيرة عند تحرير أوراق العمل”: وجد باحثو Microsoft أن معظم نماذج الذكاء الاصطناعي تعاني من المهام الطويلة الأمد – لذلك ربما لا تثق بها تمامًا بعد


  • قرر باحثو مايكروسوفت أن درجات LLM الحالية ليست جيدة للمهام طويلة المدى
  • المزيد من التفاعلات والبنية الأقل تقلل بشكل كبير من الأداء المعياري
  • “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة”

جديد الاختبارات اكتشف ثلاثة من موظفي Microsoft مشكلة أساسية قد تعيق الذكاء الاصطناعي الفعال القائم على الوكيل، وهي أن معظم نماذج الذكاء الاصطناعي لا يمكنها في الواقع دعم سير العمل طويل الأمد بشكل موثوق.

ولتحديد النتائج التي توصلوا إليها، قدم الباحثون معيار DELEGATE-52 الجديد، والذي يوفر مقاييس لـ 52 قطاعًا بما في ذلك البرمجة والمحاسبة والعلوم والمزيد.

رابط المصدر