يكتمل عامل ترحيل التعليمات البرمجية ويتحول المسار إلى اللون الأخضر. ومع ذلك، لم يتم تجميع العديد من الأغاني مطلقًا واستغرق التقاطها عدة أيام. وهذا ليس فشلاً في النموذج؛ فالوكيل هو الذي يقرر أن الأمر قد تم قبل حدوثه بالفعل.
تجد العديد من الشركات الآن أن مسارات وكيل إنتاج الذكاء الاصطناعي تفشل ليس بسبب قدرات النماذج، ولكن لأن النموذج الذي يقف وراء الوكيل قرر التوقف. حاليًا، هناك عدة طرق متاحة على LangChain وGoogle وOpenAI لمنع إكمال المهام قبل الأوان، على الرغم من أنها تعتمد غالبًا على أنظمة تسجيل منفصلة. أحدث طريقة تأتي من الأنثروبي: / الأهداف على كلود كودالذي يفصل رسميًا أداء المهمة عن تقييمها.
يعمل وكلاء التشفير في حلقة: فهم يقومون بقراءة الملفات، وتشغيل الأوامر، وتحرير التعليمات البرمجية، ثم التحقق من اكتمال المهمة.
يضيف Claude Code /goals بشكل أساسي طبقة ثانية إلى هذه الحلقة. بمجرد أن يحدد المستخدم هدفًا، سيستمر كلود بالتسلسل، ولكن بعد كل خطوة، يظهر نموذج تقييم للتحقق وتحديد ما إذا كان الهدف قد تم تحقيقه.
تم فصل النموذجين
حددت منصات التنسيق الخاصة بالبائعين الثلاثة نفس العائق. لكن طريقة تعاملهم معهم مختلفة. يترك OpenAI الحلقة بمفردها ويتيح للنموذج أن يقرر متى تنتهي، لكنه يسمح للمستخدمين بوضع علامات على المُقيّمين الخاصين بهم. باستخدام LangGraph وGoogle Agent Development Kit، يكون التقييم المستقل ممكنًا، ولكنه يتطلب من المطورين تحديد عقدة حرجة وكتابة منطق الإنهاء وتكوين إمكانية المراقبة.
يقوم Claude Code /goals بتعيين القيمة الافتراضية للمقيم المستقل، بغض النظر عما إذا كان المستخدم يريد تشغيله لفترة أطول أو أقصر. في الأساس، يحدد المبرمج الشرط لتحقيق الهدف باستخدام التلميح. على سبيل المثال /الهدف، تم تمرير كافة الاختبارات في الاختبار/المصادقة وخطوة الوبر نظيفة. يتم بعد ذلك تشغيل Claude Code وفي كل مرة يحاول فيها الوكيل إكمال عمله، يقوم نموذج التقييم، وهو Haiku افتراضيًا، بالتحقق من حلقة الحالة. إذا لم يتم استيفاء الشرط، فسيستمر الوكيل في العمل. إذا تم استيفاء الشرط، فإنه يسجل الشرط الذي تم تحقيقه في سجل استدعاء الوكيل ويحذف الهدف. يتخذ المقيم قرارين فقط، ولهذا السبب يعمل نموذج Haiku الأصغر حجمًا بشكل جيد سواء كان جاهزًا أم لا.
يجعل كلود كود ذلك ممكنًا من خلال فصل النموذج الذي يحاول أداء المهمة عن نموذج التقييم الذي يضمن تنفيذ المهمة بالفعل. وهذا يمنع الوكيل من الخلط بين ما حققه بالفعل وما لا يزال يتعين عليه القيام به. لاحظت أنثروبيك أنه باستخدام هذه الطريقة، ليست هناك حاجة إلى منصة مراقبة تابعة لجهة خارجية – على الرغم من أنه لا يزال بإمكان المؤسسات استخدامها مع Claude Code – ولا حاجة لإنشاء سجل مخصص أو تقليل الاعتماد على إعادة الإعمار بعد الوفاة.
يدعم المنافسون مثل Google ADK أنماط تصنيف مماثلة. يقوم Google ADK بتنفيذ LoopAgent، ولكن يجب على المطورين تصميم هذا المنطق.
ذكرت الأنثروبيك في وثائقها أن المصطلحات الأكثر فعالية تشمل عادةً ما يلي:
-
حالة نهائية واحدة قابلة للقياس: نتيجة الاختبار، وبناء كود الخروج، وعدد الملفات، وقائمة الانتظار الفارغة
-
تحكم مثبت: كيف يجب على كلود إثبات ذلك، على سبيل المثال “اختبار npm يُرجع 0” أو “حالة git نظيفة”.
-
القيود المهمة: أي شيء لا يمكن تغييره على طول الطريق، على سبيل المثال. “لم يتم تعديل أي ملف اختبار آخر”
الموثوقية في الحلقة
بالنسبة للمؤسسات التي تدير بالفعل مجموعات أدوات واسعة النطاق، فإن الجاذبية تتمثل في وحدة تسجيل أصلية لا تضيف نظامًا آخر للمحافظة عليه.
يعد هذا جزءًا من اتجاه أوسع في مجال الوكلاء، خاصة وأن إمكانية وجود وكلاء رسميين وطويلي العمر ومتعلمين ذاتيًا أصبحت حقيقة واقعة. بدأت نماذج التقييم، وأنظمة التحقق، وأنظمة التحكيم المستقلة الأخرى في الظهور في أنظمة الاستدلال، وفي بعض الحالات، في وكلاء الترميز مثل Devin أو SWE-agent.
أخبر شون براونيل، مدير الحلول في Sprinklr، VentureBeat في رسالة بريد إلكتروني أن هناك اهتمامًا بهذا النوع من الحلقات حيث يتم فصل المهمة عن الحكم، لكنه لا يعتقد أن هناك أي شيء فريد في نهج Anthropic.
قال براونيل: “نعم، الحلقة تعمل. إن فصل المنشئ عن القاضي هو تصميم معقول لأنك لا تستطيع عمومًا الوثوق بالنموذج لتقييم واجباته المنزلية. فالنموذج الذي يقوم بالعمل هو الأسوأ في الحكم على ما إذا كان قد تم إنجازه أم لا”. “ومع ذلك، فإن Anthropic ليست الشركة الأولى التي يتم إطلاقها. القصة الأكثر إثارة للاهتمام هي أن اثنين من أكبر مختبرات الذكاء الاصطناعي في العالم أرسلا نفس الأمر في غضون أيام من بعضهما البعض، ولكن توصل كل منهما إلى استنتاجات مختلفة تمامًا فيما يتعلق بمن يحق له إعلان “تم الأمر”.
وقال براونيل إن الحلقة تعمل بشكل أفضل “للعمل الحتمي مع حالة نهائية يمكن التحقق منها، مثل عمليات الترحيل، وإصلاح مجموعات الاختبار المعطلة، وتصفية الأعمال المتراكمة”، ولكن بالنسبة للمهام الأكثر تفصيلاً أو تلك التي تتطلب مراجعة التصميم، فمن الأهم بكثير أن يتخذ الإنسان هذا القرار.
يوضح نقل قسم المثمن/المهمة إلى مستوى حلقة الوكيل أن شركات مثل Anthropic تدفع الوكلاء والتنسيق نحو نظام أكثر قابلية للتحكم والملاحظة.












