يفشل وكلاء Enterprise AI باستمرار لأنهم ينسون ما تعلموه

تعتبر معماريات RAG جيدة في شيء واحد: عرض المستندات ذات الصلة لغويًا. توقفوا عند هذا الحد أيضًا.

وهناك هيكل يسمى الرسم البياني لسياق القرار يملأ هذه الفجوة من خلال تزويد الوكلاء بذاكرة منظمة، وتفكير حساس للوقت، ومنطق قرار واضح. موجةبدء التشغيل في النظام البيئي Neo4j، بنيت واحدة. القدرة الرئيسية: يمكن للوكلاء غير التراجعيين تجميد تسلسلات الإجراءات المؤكدة ودمجها في الوقت المناسب.

“الشيء الأساسي الذي تريده هو عدم التراجع: كيف يمكنك التأكد من أنه عندما يقوم الوكيل بإنشاء شيء جديد، يمكنك البناء على الاكتشافات السابقة؟” قال يان بيلين، المؤسس المشارك والمدير العلمي لشركة Ripletid.

لماذا لا يذهب RAG بعيدًا بما فيه الكفاية

يتضمن سياق المؤسسة أدوات تخطيط موارد المؤسسات (ERP) والسجلات وقواعد البيانات ومخازن المتجهات ومستندات السياسة. يمكن لأدوات الذكاء الاصطناعي التوليدية استيعاب البيانات من أي شيء – من خلال عمليات البحث عن الكلمات الرئيسية، أو استعلامات SQL، أو خطوط أنابيب RAG الكاملة – ولكن هناك سقف لاستيعابها.

ومن الجدير بالذكر أن البيانات المستردة قد لا تكون ذات صلة بالقرار المتخذ (مما يسبب الهلوسة)؛ وحتى عندما يستخرج الوكلاء البيانات الصحيحة، فإنهم غالبًا ما يفتقرون إلى التوجيه حول كيفية اتخاذ القرارات المدعومة بمنطق قوي.

وهذا يعني أن RAG يسترد المستندات، وليس سياق القرار. “يبدأ الجميع بـ RAG: قم بتنزيل المستندات المناسبة، ثم ضعها في تلميح الأدوات ودع النموذج يتعرف عليها،” قال وايت مايهام من نورثويست لاستشارات الذكاء الاصطناعي.

وأشار إلى أنه في حين أن هذا يعمل بشكل جيد مع برامج الدردشة الآلية، إلا أنه “يتعطل على الفور” بالنسبة للعملاء الذين يحتاجون إلى اتخاذ القرارات واتخاذ الإجراءات. “إن أكبر ما يعاني منه المصممون هو الانفصال بين البحث وقابلية التطبيق.”

وقال ميهام إن الوثيقة المستردة لا تخبر الوكيل ما إذا كانت لا تزال سارية المفعول أو تم استبدالها أو ما إذا كان هناك بند متعارض له الأسبقية. “يحتاج الوكلاء إلى سياق اتخاذ القرار، وليس فقط المعلومات.”

في مجال البناء (العالم البشري)، قد يعني هذا معرفة أن استثناء السعر قد انتهت صلاحيته، أو أن سياسة السلامة لا تنطبق إلا في ولايات قضائية معينة، أو أن إجراء التشغيل القياسي قد تم تحديثه قبل شهر. وقال مايهام: “إن فقدان أي من هذه العناصر يعني أن العميل سيفعل الشيء الخطأ بالتأكيد”.

وفي غياب سياق منظم لصنع القرار، يجمع الوكلاء قواعد غير متوافقة، ويخترعون قيوداً لسد الثغرات، ويعتمدون على ما يسميه بيلين “التخمينات الاحتمالية من البيانات غير المقيدة”. من الصعب تكرار الأخطاء لأن المصممين لا يستطيعون تتبع سبب قيام الوكيل باختيار معين.

قال مايهام إن مشكلة ربط الأخطاء حقيقية أيضًا: حيث يصبح عدد صغير من الأخطاء في كل خطوة “كارثيًا” في سير العمل متعدد الخطوات. “وهذا هو السبب الرئيسي الذي يجعل معظم وكلاء الشركات لا يتركون المرحلة التجريبية أبدًا.”

كيف تؤدي الرسوم البيانية لسياق القرار إلى الإجابة الصحيحة

يحل الرسم البياني لسياق القرار هذه المشكلة عن طريق ترميز خريطة منظمة لما ينطبق، وما هي القواعد، ومتى يتم تطبيقها.

تم تحسين إطار العمل لسؤال واحد: “بالنظر إلى هذا الموقف، ما هو السياق الذي ينطبق الآن؟” يتم التعامل مع الوقت باعتباره البعد الأساسي. كل قاعدة وقرار واستثناء لها نطاق إلى الحد الذي تصبح فيه صالحة.

وقال بيليان: “الهدف هو حساب البيانات المفقودة أو غير المتسقة أو المتضاربة بشكل صريح عند إنشاء الرسم البياني لتجنب (الأخطاء) الاحتمالية عند إطلاق الوكيل”.

يتم بناء النظام حول ثلاثة مبادئ:

  • طلب: يتم ترميز المنطق بشكل صريح حتى يعرف الوكيل القواعد التي يجب تذكرها وتطبيقها في موقف معين. يتم إرجاع السياق فقط إذا كان ذا صلة بالموقف.

  • الذاكرة الواعية للوقت: ولكل قاعدة وقرار واستثناء نطاق زمني محدد. وهذا يسمح للوكلاء بالنظر في ما كان صحيحًا في ذلك الوقت وما هو صحيح الآن، ومن ثم إعادة إنشاء قراراتهم أو شرحها.

  • مسارات القرار: يمكن للنظام أن يشرح كيف انتقل من النقطة أ إلى النقطة ب و”السبب” وراء منطقه (على سبيل المثال، لماذا تم تضمين جزء من السياق وعدم تضمين جزء آخر). يتم تزويد الوكلاء “بمسار اتخاذ القرار” لأمثلة حول كيفية التعامل مع الحالات المماثلة من قبل.

أثناء التكوين، يتم أخذ البيانات غير المنظمة وترتيبها في علم الوجود: ما هي الكيانات الموجودة، وما هي القواعد المطبقة، وما الذي يمكن اعتباره استثناءً. يدعم الذكاء الاصطناعي الرمزي العصبي التعرف على الأنماط وترميز المنطق الرسمي الذي يمكن قراءته بواسطة الآلة. وبمرور الوقت، يقوم النظام بتحسين قاعدة معارفه عند اتخاذ قرارات جديدة.

قال بيلين: “يتكون الرمز العصبي من جزأين: جزء عصبي يمنح الوكلاء الكثير من الاستقلالية، وجزء رمزي يسمح لك بتقليل كمية البيانات المطلوبة وتوفير التحكم”.

يتم اختبار الوكيل في وقت الترجمة (قبل الإنتاج) للتحقق من سلوكه أو الإشارة إلى التحسينات. وأشار إلى أن هذا يقلل من المخاطر والاحتياجات الحسابية أثناء الاستدلال.

الوكلاء يتعلمون بدلاً من التراجع

وقال بيلين إنه عندما يتعلق الأمر بعدم التراجع، فإن العنصر الأساسي هو مزيج من الذكاء (النماذج) والمعرفة (المشتركة بين العملاء). من المهم أن يتمكن الوكلاء من الاستكشاف؛ إذا كانوا لا يعرفون كيفية أداء مهمة ما، فيمكنهم تجربة احتمالات مختلفة، عادةً في بيئة خاضعة للتحكم أو محاكاة (على سبيل المثال، روبوت مساعد يحاول أنماط استجابة متعددة).

وقال بيلين: “بعد ذلك، بمجرد تقييم الحل على أنه مُرضٍ، يتم تثبيت الرسم البياني في تسلسل الإجراءات”. تبدأ عمليات البحث المستقبلية بعد ذلك بهذه “القاعدة المستقرة من السلوكيات المثبتة” لمنع المهارات المكتسبة حديثًا من استبدال السلوكيات الجيدة التي تم تعلمها مسبقًا.

قبل أن يتخذ الوكيل أي إجراء أو يؤثر على العميل، فإنه يتحقق من الرسم البياني: هل هذا ينتهك القاعدة؟ الهلوسة؟ التمسك بالحدود؟ هل يمكن تعميم الحل على حالات مماثلة؟

على المستوى الكلي، يقوم النظام بتقييم الأداء: هل أدى السلوك إلى تحسين الأداء على المدى الطويل؟ هل قام بالتعميم في سياقات مماثلة؟ فهل احتفظت بقدراتها السابقة؟

وقال بيلين: “إن هذه الحتمية هي المفتاح لضمان موثوقية الوكيل على نطاق واسع”. يؤدي هذا إلى سلوك أكثر اتساقًا وقابلية للتنبؤ وقابلية للتفسير ويسمح بتحكم أقوى وقابلية للتدقيق.

وقال: “أنت تريد أن يكون عملاؤك قادرين على تثقيف أنفسهم عندما يواجهون شيئًا لا يعرفون عنه”. “تريد منهم أن يكونوا قادرين على استكشاف وإيجاد حلول جديدة.”

تجاوز الذاكرة “العرضية”.

على الرغم من أن الفريق توقع في البداية أن يتم تنفيذ RL في كل مكان، إلا أنه “تبين أن الأمر صعب للغاية في بيئة الشركات”، كما قال بيلين. “في بعض حالات الاستخدام المحددة، تكون البيانات نادرة وفي حالات أخرى تكون غير واضحة.”

وقال بيلين: عادةً، كان استخدام البيانات الأولية لإجراء تنبؤات موثوقة تحديًا يدويًا ويستغرق وقتًا طويلاً، ولكن “الآن، مع الوكلاء، دخلنا عصرًا جديدًا حيث أصبح من الممكن بناء علم الوجود تلقائيًا”.

يمكن أن تؤدي أساليب الضبط الكلاسيكية الخاضعة للإشراف إلى تذبذبات عندما تنسى النماذج آخر مهارة تعلمتها عند تعلم النغمة التالية. بشكل عام، التعلم غير معقد، والضغط “دراماتيكي”، والنماذج تتحسن “بشكل عرضي” وليس بشكل مستمر، مما يؤدي إلى الفشل المستمر في أداء مهام جديدة أو غير مرئية.

وكما أشار بيلين، “لن يكون لديك أبدًا نموذج للتعلم الذاتي الكامل إذا واصلت الرجوع إلى الوراء في كل مرة.”

وأشار إلى أنه في تطبيقات المؤسسات – مثل الخدمات المصرفية، حيث تتم معالجة ملايين المعاملات يوميًا – يعد المستوى العالي من الموثوقية أمرًا بالغ الأهمية. “سؤال واحد أطرحه على جميع العملاء: هل 95% كافٍ؟ في كثير من الحالات لا يكون كذلك. أنت بحاجة إلى 99.999%. خصم 1% كثير جدًا.”

ويجادل بأن الرسوم البيانية لسياق القرار يمكن أن تسد هذه الفجوة: عندما يتم طرح نفس سؤال خدمة العملاء بشكل متكرر، سيقدم الوكيل إجابة “مرضية” بشكل متوقع ودون تراجع، مع الحفاظ على الاستقلالية.

قال مايهام إن تشفير قابلية التطبيق والصلاحية الزمنية في رسم بياني منظم – بدلًا من الاعتماد على LLM لاستنتاجه – يعد “نهجًا معقولًا” للقيود الحقيقية لأطر البحث الحالية. والسؤال المفتوح هو ما إذا كان التوليد التلقائي للوجود يمكنه تحمل البيانات المتنوعة وغير المنظمة التي تمتلكها المؤسسات بالفعل. وقال: “هذا هو الجزء الأصعب دائمًا”.

رابط المصدر