لا تقوم نماذج Frontier AI بحذف محتوى المستند فحسب، بل تعيد كتابته، مما يجعل من المستحيل تقريبًا اكتشاف الأخطاء

نظرًا لأن النماذج اللغوية الكبيرة أصبحت أكثر قوة، يميل المستخدمون إلى تفويض المهام المعرفية بينما تقوم النماذج بمعالجة المستندات نيابة عنهم وتقديم النتائج النهائية. ولكن إلى أي مدى يمكنك الوثوق في أن يظل النموذج مخلصًا لمحتوى مستنداتك عندما يتعين عليه مراجعتها على مدار جولات متعددة؟

و دراسة جديدة يُظهر باحثو Microsoft أن نماذج اللغات الكبيرة تفسد المستندات التي تعمل عليها بصمت عن طريق إدخال الأخطاء. طور الباحثون معيارًا يحاكي سير العمل المستقل متعدد الخطوات عبر 52 مجالًا احترافيًا، باستخدام طريقة تقيس تدهور المحتوى تلقائيًا بمرور الوقت.

تظهر النتائج التي توصلوا إليها أنه حتى نماذج الحدود الرائدة تفسد ما متوسطه 25% من محتوى المستند في نهاية مسارات العمل هذه. كما أن تجهيز النماذج بأدوات تعتمد على الوكيل أو مستندات تشتيت واقعية تؤدي في الواقع إلى تفاقم أدائها.

وهذا بمثابة تحذير من أنه على الرغم من وجود ضغط متزايد لأتمتة العمل المعرفي، إلا أن نماذج اللغة الحالية لا يمكن الاعتماد عليها بشكل كامل لهذه المهام.

آليات العمل المفوض

تركز دراسة Microsoft على “العمل المفوض” – وهو نموذج ناشئ يسمح فيه المستخدمون لحملة LLM بأداء مهام المعرفة نيابة عنهم من خلال تحليل المستندات وتعديلها.

أحد الأمثلة البارزة على هذا النموذج هو التشفير الاهتزازي، حيث يقوم المستخدم بتفويض تطوير البرامج وتحرير التعليمات البرمجية إلى الذكاء الاصطناعي. ومع ذلك، فإن سير العمل المفوض يذهب إلى ما هو أبعد من البرمجة في المجالات الأخرى. على سبيل المثال، في المحاسبة، يمكن للمستخدم إنشاء دفتر أستاذ كثيف وتوجيه النموذج لتقسيم المستند إلى ملفات منفصلة منظمة حسب فئات نفقات محددة.

ونظرًا لأن المستخدمين قد يفتقرون إلى الوقت أو الخبرة اللازمة لمراجعة كل تعديل يجريه الذكاء الاصطناعي يدويًا، فإن التفويض غالبًا ما يعتمد على الثقة. يتوقع المستخدمون أن يؤدي النموذج المهام بأمانة، دون إدخال أخطاء غير محددة أو عمليات حذف غير مصرح بها أو هلوسة في المستندات.

لقياس مدى الثقة في أنظمة الذكاء الاصطناعي في سير العمل المفوض والمتكرر والممتد، طور الباحثون أداة مندوب-52 المعيار. ويتكون المعيار من 310 بيئة عمل تغطي 52 مجالًا مهنيًا متنوعًا، بما في ذلك المحاسبة المالية وهندسة البرمجيات وعلم البلورات والتدوين الموسيقي.

مثال لمهمة DELEGATE-52 (المصدر: arXiv)

تعتمد كل بيئة عمل على مستندات نصية حقيقية تحتوي على ما بين 2000 و5000 رمز مميز. بالإضافة إلى المستند المصدر، تشتمل البيئات على خمس إلى عشر مهام تحرير معقدة وغير تافهة.

عادةً ما يتطلب تقييم عملية تحرير معقدة ومتعددة الخطوات مراجعة بشرية مكلفة. يتحايل DELEGATE-52 على هذه المشكلة باستخدام طريقة محاكاة ذهابًا وإيابًا تقوم بتقييم الاستجابات دون الحاجة إلى حلول مرجعية بشرية مشروحة. هذا النهج مستوحى من تقنية الترجمة العكسية المستخدمة في تقييم الترجمة الآلية، حيث يُطلب من نموذج الذكاء الاصطناعي ترجمة مستند من لغة إلى أخرى والعودة لمعرفة مدى قرب تكرار النسخة الأصلية.

لذلك، تم تصميم كل مهمة تحرير في DELEGATE-52 بحيث تكون قابلة للعكس تمامًا، حيث تجمع بين التعليمات الأمامية وعكسها الدقيق. على سبيل المثال، يتم دمج تعليمات تقسيم دفتر الأستاذ إلى ملفات منفصلة حسب فئة النفقات مع تعليمات لدمج جميع ملفات الفئات مرة أخرى في دفتر أستاذ واحد.

في التعليقات المقدمة إلى VentureBeat، أوضح فيليب لابان، أحد كبار الباحثين في Microsoft Research والمؤلف المشارك في الورقة، أن هذا ليس مجرد اختبار لمعرفة ما إذا كان الذكاء الاصطناعي يمكنه النقر فوق “تراجع”. نظرًا لأنه لا يمكنك إجبار الموظفين على “نسيان” المهمة التي قاموا بها للتو على الفور، فإن هذا التقييم ذهابًا وإيابًا مناسب بشكل فريد للذكاء الاصطناعي. عند بدء جلسة محادثة جديدة، يجبر الباحثون النموذج على محاولة المهمة العكسية بشكل مستقل تمامًا.

وأوضح لابان أن النماذج في تجاربهم “لا تعرف ما إذا كانت مهمة معينة تمثل خطوة للأمام أم للخلف، وليسوا على دراية بالتصميم العام للتجربة”. “إنهم يحاولون فقط إكمال كل مهمة بأكبر قدر ممكن من الدقة، في كل خطوة على الطريق.”

مثال لمهمة ترحيل ذهابًا وإيابًا (المصدر: arXiv)

ترتبط هذه المهام ذهابًا وإيابًا في تتابع مستمر لمحاكاة سير العمل طويل المدى المكون من 20 تفاعلًا متتاليًا. ولجعل البيئة أكثر واقعية، يقدم المعيار ملفات مبعثرة في سياق كل مهمة. أنها تحتوي على ما بين 8000 و12000 رمزًا من المستندات ذات الصلة بالموضوع ولكنها غير ذات صلة على الإطلاق. تقيس عوامل التشتيت ما إذا كان الذكاء الاصطناعي قادرًا على الحفاظ على التركيز أو ما إذا كان سيرتكب أخطاء ويستعيد بيانات غير صحيحة.

اختبار نماذج الحد في سباق التتابع

لفهم كيفية تعامل البنيات والمقاييس المختلفة مع العمل المفوض، اختبر الباحثون 19 نموذجًا لغويًا مختلفًا من OpenAI، وAnthropic، وGoogle، وMistral، وxAI، وMoonshot. في التجربة الرئيسية، تمت محاكاة هذه النماذج من خلال 20 تفاعل تحرير متتالي.

وفي جميع النماذج، تدهورت جودة المستندات بمعدل 50% في نهاية المحاكاة. حتى أفضل نماذج الحدود في التجربة، ولا سيما Gemini 3.1 Pro، وClaude 4.6 Opus، وGPT 5.4، أفسدت ما متوسطه 25% من محتوى المستند.

من بين 52 مجالًا احترافيًا، كانت لغة Python هي المجال الوحيد الذي حصل على غالبية النماذج الجاهزة بنتيجة 98% أو أعلى. تتفوق النماذج في مهام البرمجة، ولكنها تواجه مشاكل خطيرة في اللغة الطبيعية والمجالات المتخصصة مثل الخيال أو بيانات الرواتب أو الوصفات. بشكل عام، تم اعتبار النموذج الأعلى، Gemini 3.1 Pro، جاهزًا للعمل المفوض في 11 مجالًا فقط من أصل 52.

تواجه جميع النماذج صعوبة في تفويض المهام (المصدر: arXiv)

ومن المثير للاهتمام أن الفساد لم يكن سببه الموت بآلاف الجروح، التي تتراكم في نماذجها أخطاء صغيرة ببطء. وبدلاً من ذلك، فإن حوالي 80% من إجمالي التدهور ناتج عن حالات فشل خطيرة نادرة ولكن هائلة، وهي عبارة عن تفاعلات فردية يسقط فيها ما لا يقل عن 10% من محتوى المستند فجأة من النموذج. النماذج الحدية ليست بالضرورة أفضل في تجنب الأخطاء الصغيرة. إنهم ببساطة يؤجلون هذه الإخفاقات الكارثية إلى جولات لاحقة.

ملاحظة مهمة أخرى هي أنه عندما تفشل النماذج الأضعف، فإن تدهورها يرجع في المقام الأول إلى إزالة المحتوى. ومع ذلك، عندما تفشل النماذج الحدودية، فإنها تفسد المحتوى الموجود بشكل فعال. لا يزال النص موجودًا، ولكن تم تشويهه أو هلوسته بمهارة، مما يزيد من صعوبة اكتشاف الخطأ على المشرف البشري.

ومن المثير للاهتمام، أن تجهيز النماذج بمجموعة من الوكلاء الذين لديهم تنفيذ تعليمات برمجية عامة وأدوات الوصول للقراءة/الكتابة للملفات أدى في الواقع إلى تفاقم أدائها، مما تسبب في زيادة التدهور بنسبة 6% في المتوسط. وأوضح لابان أن الفشل يأتي من الاعتماد على الأدوات العامة بدلاً من الأدوات الخاصة بالمجال.

وأشار إلى أن “النماذج لا تملك القدرة على كتابة برامج فعالة بسرعة يمكنها معالجة الملفات في مجالات مختلفة دون أخطاء”. “عندما لا يتمكنون من القيام بشيء ما برمجيًا، فإنهم يلجأون إلى قراءة وإعادة كتابة الملفات بأكملها، وهو أمر أقل كفاءة وأكثر عرضة للخطأ.” الحل المتاح للمطورين هو إنشاء أدوات ضيقة النطاق (مثل وظائف محددة لحساب الإدخالات أو نقلها في ملفات .ledger) لإبقاء الوكلاء على المسار الصحيح.

يتطور التدهور أيضًا مع زيادة حجم المستندات أو عند إضافة المزيد من الملفات المشتتة للانتباه إلى اللوحة القماشية. بالنسبة لفرق المؤسسة التي تستثمر بكثافة في إنشاء بمساعدة البحث (RAG)، تعمل وثائق التشتيت هذه بمثابة تحذير مباشر حول التكاليف المتداخلة للسياق غير المنظم. في حين أن نافذة السياق المزعجة قد تؤدي إلى عقوبة أداء بحد أدنى تبلغ 1% بعد تفاعلين فقط، فإن هذا التدهور يترجم إلى عقوبة أداء هائلة تتراوح بين 2-8% على مدار عملية محاكاة طويلة.

قال لابان: “بالنسبة لمجتمع البحث: يجب تقييم خطوط أنابيب RAG بناءً على سير عمل متعدد الخطوات، وليس فقط معايير الاسترجاع ذات الدورة الواحدة”. “إن قياسات المنعطف الواحد تقلل بشكل منهجي من أضرار الاسترجاع غير الدقيق.”

التحقق من الواقع للمؤسسة المستقلة

توفر النتائج المعيارية لـ DELEGATE-52 فحصًا واقعيًا حاسمًا للضجة الحالية حول وكلاء الذكاء الاصطناعي المستقلين تمامًا.

ويفرض التصميم المعياري أيضاً قيداً عملياً: لأن النماذج قادرة على الاحتفاظ بسجل نظيف لعدة مراحل قبل حدوث فشل مفاجئ وكارثي، فإن التحقق البشري المتزايد ضروري، بدلاً من فحص نهائي واحد. يوصي لابان ببناء تطبيقات الذكاء الاصطناعي بناءً على مهام قصيرة وواضحة، بدلاً من العوامل المعقدة ذات الأفق الزمني الطويل. وهذا يضمن الحفاظ على عواقب الفعل دون حاجة الكاتب إلى إصدار وصفة طبية.

بالنسبة للمؤسسات التي تتطلع إلى نشر الوكلاء المستقلين بشكل آمن اليوم، توفر منهجية DELEGATE-52 مخططًا عمليًا لاختبار مسارات البيانات الداخلية. أوضح لابان أن “… فريق المؤسسة الذي يتطلع إلى اعتماد هذا الإطار يجب أن يبني ثلاثة مكونات: (أ) مجموعة من مهام التحرير القابلة للعكس لتمثيل سير العمل، (ب) محلل يحول مستندات المجال إلى تمثيل منظم، و (ج) وظيفة تشابه تقارن بين التمثيلين المحللين. لا يتعين على الفرق حتى إنشاء محللين من الصفر. نجح فريق بحث Microsoft في إعادة توظيف مكتبات التحليل الحالية لـ 30 من أصل 52 نطاقًا تم اختبارها.

لابان متفائل بشأن وتيرة التحسن. وقال لابان: “التقدم حقيقي وسريع. وبالنظر فقط إلى عائلة GPT، ينخفض ​​أداء النموذج من أقل من 20% إلى حوالي 70% في 18 شهرًا”. “إذا استمر هذا المسار، فستكون النماذج قادرة قريبًا على تحقيق التشبع في تجربة DELEGATE-52.”

ومع ذلك، حذر لابان من أن DELEGATE-52 صغير عن عمد مقارنة ببيئات المؤسسات الضخمة. حتى لو كانت نماذج مستوى الدخول تتقن حتماً هذا المعيار، فإن الكمية اللامتناهية من بيانات المؤسسة الفريدة وسير العمل تعني أن المؤسسات ستحتاج دائمًا إلى الاستثمار في أدوات مخصصة خاصة بالمجال لضمان موثوقية وكلائها المستقلين.

رابط المصدر