تواجه الشركات التي تقوم ببناء الوكلاء ونشرهم مشكلة: يستغرق المهندسون وقتًا طويلاً للغاية حتى يكتشفوا أن الوكيل قد ارتكب خطأ، وبالتالي فإن الحلقة تستمر في تكرار نفسها، خاصة بدون وجود إنسان في كل خطوة.
أطلقت LangSmith، منصة المراقبة والتقييم الخاصة بـ LangChain، ميزة جديدة في الإصدار التجريبي العام قد تجعل إدارة هذه المشكلة أسهل. محرك لانج سميث يقوم بأتمتة السلسلة بأكملها عن طريق الكشف عن فشل الإنتاج، وتشخيص الأسباب الجذرية من قاعدة التعليمات البرمجية العاملة، وتطوير الإصلاح، ومنع التراجعات. يقوم بذلك في تشغيل تلقائي واحد.
يوفر محرك LangSmith لمهندسي الذكاء الاصطناعي مسارًا أسرع للاختيار، لكنه يصل إلى مجال مزدحم: تقوم Anthropic وOpenAI وGoogle بنقل إمكانية المراقبة والتقييم إلى منصاتها الخاصة.
يقوم محرك LangSmith بتحليل حالات الفشل
قال LangChain في منشور بالمدونة إن دورة حياة تطوير الوكيل النموذجية تبدأ بتتبع الوكيل لفهم ما يفعله، ثم تحديد الثغرات، وإجراء تغييرات على تلميحات الأدوات والأدوات، وإنشاء مجموعات البيانات الأساسية. يقوم المطورون بعد ذلك بإجراء التجارب والتحقق من التراجعات قبل إرسال الوكيل.
تكمن المشكلة في أن العملاء غالبًا ما يواجهون مشكلات عندما لا تكشف مراجعة التتبع عن أنماط خاطئة، ويصبح من الصعب اكتشاف الأخطاء المتكررة، ولا يوجد مقيم مركَّز لاكتشاف نفس المشكلة عندما تكرر نفسها في الإنتاج.
وفقًا لمنشور المدونة، يراقب LangSmith Engine آثار الإنتاج لعدة أنواع من الإشارات، “الأخطاء العلنية، وفشل المقيم عبر الإنترنت، وتتبع الحالات الشاذة، وتعليقات المستخدمين السلبية، والسلوك غير المعتاد مثل قيام المستخدمين بطرح أسئلة لم يتم إنشاء وكيل لها.
سيقوم المحرك بعد ذلك بقراءة قاعدة التعليمات البرمجية النشطة، والعثور على الجاني، وإعداد طلب سحب قبل اقتراح مسجل مخصص لنمط الخطأ المحدد. يظهر الإنسان في مرحلة الموافقة.
وهو يعتمد على البنية التحتية الحالية للتتبع والتقييم الخاصة بشركة LangSmith ويعمل مع نتائج تقييم المؤسسة.
على عكس أدوات المراقبة مثل Weights & Biases وArize Phoenix وHoneyhive، يتولى LangSmith Engine تلقائيًا مسؤولية السلسلة بأكملها – حيث يكتشف الفشل ويشخص السبب الجذري ويطور الحل – ولا يتضمن سوى الإنسان في مرحلة الموافقة.
يقوم مقدمو النماذج بإحضار المقيمين إلى المنصة
في حين أن لانغ سميث قد حدد حلقة التقييم هذه باعتبارها حاجة للعديد من المؤسسات، فإن Engine يأتي عندما يبدأ كبار البائعين في تقديم أدوات المراقبة على منصاتهم. وهذا يعني أنه يمكن للمؤسسات اختيار استخدام منصة الكل في واحد بدلاً من إضافة محرك LangSmith إلى سير العمل الحالي.
يجمع حل Claude Managed Agents من Anthropic بين نشر الوكيل وتقييمه وتنسيقه في حزمة واحدة. تقدم Frontier OpenAI منصة مماثلة وشاملة لإنشاء وكلاء المؤسسات وإدارتهم وتصنيفهم – على الرغم من أن كلاهما أثار تساؤلات من المؤسسات التي لا ترغب في الالتزام بمورد واحد.
ومع ذلك، يشير الممارسون إلى أنه لا يرغب الجميع في تركيز التقييم وإمكانية الملاحظة بشكل كامل على منصة واحدة.
صرح لي كوني، المؤسس والمستشار الرئيسي في Workwise Solutions، لـ VentureBeat أن إمكانية المراقبة من طرف ثالث هي المعيار في العديد من المؤسسات.
وقال: “أحد الصناديق التي أعمل معها يستخدم Claude للتحليل وGPT لسير عمل منفصل. إذا تم تمكين إمكانية المراقبة في أدوات كل بائع، فلديك الآن نظامان لا يستطيعان التواصل مع بعضهما البعض. ولا يستطيع فريق الامتثال الخاص بك إنشاء مسار تدقيق موحد”. “لذلك تستمر إمكانية المراقبة من طرف ثالث لأن النماذج المتعددة هي بالفعل الخيار الافتراضي في المؤسسات ويتعين على شخص ما استخدام بائعين مختلفين.”
وقالت جيسيكا أريدوندو ميرفي، الرئيس التنفيذي والمؤسس المشارك لشركة True Fit، إن المنصات المستقلة مثل LangSmith بحاجة إلى أن تثبت للمؤسسات أنها تستطيع “الإجابة على السؤال طويل المدى المتمثل في أن تصبح طبقة تشغيل متعددة النماذج من أجل الجودة والموثوقية”.
وقالت: “لا تنتقل المؤسسات إلى أدوات البائع النموذجية للطرف الأول بالسرعة التي يرغب فيها البائعون النموذجيون. أرى انقسامًا عمليًا: ستستخدم الفرق أدوات الطرف الأول للنشر السريع وتصحيح الأخطاء في المرحلة المبكرة، ولكن بمجرد أن يهتموا بموثوقية الإنتاج والإدارة وسرعة الحركة على المدى الطويل، فإنهم يميلون إلى تقديم طبقة أكثر حيادية للمراقبة والتقييم”.
محرك LangSmith متوفر الآن في النسخة التجريبية العامة. يمكن للفرق توصيل مشروع التتبع الخاص بهم، وتوصيل المستودع الخاص بهم بشكل اختياري، وسيبدأ المحرك تلقائيًا في اكتشاف المشكلات من تتبعات الإنتاج.












