يكشف التفكير المسبق عن نقطة ضعف أساسية في عملاء الذكاء الاصطناعي: حيث تمتلئ نوافذ السياق بسرعة، وتعيد خطوط أنابيب البحث الضوضاء بدلاً من الإشارة.
ولحل هذه المشكلة، طور علماء من جامعة سنغافورة الوطنية MRAgentهيكل يتخلى عن النهج الثابت “احصل عليه ثم قم بتبريره”. وبدلاً من ذلك، يستخدم آلية تسمح للوكيل بتطوير الذاكرة ديناميكيًا بناءً على الأدلة التي تم جمعها.
تم دمج عملية إعادة بناء الذاكرة متعددة الخطوات هذه في عملية التفكير الخاصة بنموذج اللغة الكبير (LLM). على الرغم من أنها ليست المنصة الوحيدة في هذا المجال، إلا أن MRAgent تقلل بشكل كبير من استهلاك الرمز المميز وتكاليف وقت التنفيذ مقارنة بأساليب إدارة الذاكرة الوكيلة الأخرى.
حدود البحث السلبي في المهام طويلة المدى
في مسارات البحث الكلاسيكية، يتم استرداد المستندات عبر البحث المتجه أو اجتياز الرسم البياني وتمريرها إلى LLM للتبرير. يفشل هذا النهج السلبي لأنه لا يستطيع ربط التفكير مع الوصول إلى الذاكرة، مما يخلق ثلاث اختناقات رئيسية:
-
لا تستطيع هذه الأنظمة تغيير استراتيجية البحث الخاصة بها أثناء التفكير. إذا قام الوكيل بتنزيل مستند واكتشف دليلًا رئيسيًا مفقودًا – تاريخ أو شخص محدد – فلا توجد طريقة لإرسال استعلام جديد بناءً على هذه النتيجة.
-
تعمل نتائج التشابه الثابتة وامتدادات الرسم البياني المحددة مسبقًا على إرجاع مطابقات على مستوى السطح والتي تغمر نافذة سياق LLM بضوضاء غير ذات صلة، مما يؤدي إلى تدهور المنطق.
-
تعتمد الأنظمة الحالية بشكل كبير على الهياكل المعدة مسبقًا مثل نتائج الرف العلوي ووظائف الصلة الثابتة، مما يحد من المرونة المطلوبة لتوسيع نطاق تفاعلات المستخدم طويلة المدى وغير المتوقعة.
للتغلب على هذه القيود، يقول الباحثون، يجب على المطورين التحرك نحو “عملية إعادة البناء الترابطي النشطة”، وهو مفهوم مستوحى من علم الأعصاب الإدراكي.
في هذا النموذج، يحدث استدعاء الذاكرة بشكل تسلسلي بدلاً من العمل كقراءة سلبية لقاعدة بيانات ثابتة. يبدأ النظام بمحفزات صغيرة ومحددة يعرضها المستخدم، مثل اسم الشخص أو نشاطه أو مكانه. تشير هذه القرائن الأولية إلى الجمع بين المفاهيم أو الفئات بدلاً من كتل ضخمة من النص.
باتباع خطوات البيانات الوصفية هذه، يقوم الوكيل بجمع أجزاء صغيرة من الأدلة واحدة تلو الأخرى. ويستخدم كل معلومة جديدة لتوجيه الخطوة التالية حتى يتمكن من تجميع قصة كاملة ودقيقة.
كيف يقوم MRAgent بإعادة بناء الذاكرة النشطة
بدلاً من عرض الذاكرة كقاعدة بيانات ثابتة، يتعامل معها MRAgent (هندسة استدلال الذاكرة لوكلاء LLM) كبيئة تفاعلية. عند معالجة استعلام معقد، يستفيد الوكيل من إمكانات الاستدلال لإطار عمل LLM لاستكشاف مسارات بحث محتملة متعددة في الرسم البياني للذاكرة المنظمة.
في كل مرحلة، تقوم LLM بتقييم الأدلة غير المباشرة المجمعة واستخدامها لتحسين بحثها بشكل متكرر. فهو يستخرج قيود بحث جديدة، ويتبع المسارات التي تحتوي على أفضل المعلومات، ويقلم الفروع غير ذات الصلة. يسمح هذا لـ MRAgent بتجميع المعلومات المخفية بشدة دون ملء سياق LLM بالضوضاء.
ولجعل هذا الاستكشاف النشط فعالاً من الناحية الحسابية وقابلاً للتطوير، ينظم إطار العمل قاعدة البيانات الخاصة به باستخدام آلية “Cue-Tag-Content”. يعمل هذا مثل رسم بياني ارتباطي متعدد الطبقات مع ثلاثة أنواع من العقد:
-
نصائح: الكلمات الرئيسية التفصيلية مثل العناصر أو السمات السياقية المستخرجة من تفاعلات المستخدم.
-
محتويات: وحدات الذاكرة المخزنة الفعلية. وهي مقسمة إلى طبقات متعددة الحبيبات مثل الذاكرة العرضية لأحداث معينة والذاكرة الدلالية للحقائق الثابتة وتفضيلات المستخدم.
-
العلامات: الجسور الدلالية التي تلخص الروابط العلائقية بين إشارات ومحتوى محدد.
يتيح هذا الهيكل عملية بحث عالية الكفاءة مكونة من خطوتين. ينتقل LLM أولاً من الإشارات إلى العلامات المحتملة. نظرًا لأن العلامات تكشف بوضوح العلاقات الدلالية والارتباطات الهيكلية للبيانات، يقوم الوكيل بتقييم هذه الملخصات القصيرة لتقييم فائدتها. تحدد LLM مسارات الانتقال الواعدة وتتجاهل الفروع غير ذات الصلة قبل إصدار الرموز والتلميحات الحسابية للوصول إلى محتوى مفصل ذي ذاكرة كبيرة.
على سبيل المثال، قد يسأل المستخدم أحد عملاء الذكاء الاصطناعي، “كيف استخدم Nate أموال الجائزة عندما فاز ببطولة ألعاب الفيديو الثالثة؟”
-
يقوم MRAgent أولاً باستخراج إشارات البدء التفصيلية من المطالبات، مثل “Nate” و”بطولة ألعاب الفيديو” و”win”.
-
يقوم الوكيل بتعيين هذه الإشارات الأولية إلى الرسم البياني للذاكرة ويتحقق من العلامات الترابطية المتاحة المرتبطة بها. يرى الوكيل علامات مثل “الفوز بالبطولة” و”المشاركة في البطولة”. نظرًا لأنه مهتم فقط بما فعله الشخص بعد الفوز بالبطولة، فإن MRAgent يسقط علامة المشاركة في البطولة ويتبع علامة النصر.
-
يستعيد الوكيل المحتوى العرضي المرتبط بزوج Cue-Tag المحدد، ويستعيد ثلاث حلقات ذاكرة مختلفة فاز فيها Nate بالبطولة.
-
يتحقق MRAgent من ثلاث ذكريات، ويقرر أن إحداها ذات صلة بالاستعلام بشكل خاص، ويتجاهل الاثنتين الأخريين.
-
وبهذه المعلومات، يقوم بتحديث إرشاداته ويبدأ الجولة التالية من الاكتشاف والتطهير. واستنادًا إلى الذاكرة العرضية الجديدة المستردة، يضيف العميل “أرباح البطولة” إلى أدلةه ويستخدمها لتصفح العلامات الجديدة والوصول إلى ذكريات جديدة. يكرر هذه العملية حتى يكون لديه معلومات كافية للإجابة على سؤال قد يكون مثل “لقد وفر نيت المال”.
أداء MRAgent في معايير الصناعة
يعمل MRAgent جنبًا إلى جنب مع العديد من أطر العمل الأخرى التي تتعامل مع بناء ذاكرة الوكيل. تشمل البدائل A-MEM، وهي بنية ذاكرة قائمة على الوكيل، وMemoryOS، وهي بنية ذاكرة هرمية. تشمل هياكل الذاكرة المستمرة الأخرى LangMem وMem0.
اختبر الباحثون MRAgent في معايير صناعة LoCoMo وLongMemEval. إنهم يختبرون قدرة الوكلاء على حل الاستفسارات حول المهام والمحادثات طويلة المدى عبر عشرات الجلسات ومئات جولات الحوار. الإطارات السلكية المستخدمة هي Gemini 2.5 Flash وClaude Sonnet 4.5. تم اختبار النظام وفقًا لمعايير RAG وA-MEM وMemoryOS وLangMem وMem0.
لقد تفوق MRAgent باستمرار على جميع الخطوط الأساسية في كلا النموذجين وفي جميع أنواع الأسئلة بهامش كبير.
ومع ذلك، بالنسبة لمطوري المؤسسات، غالبًا ما يكون المقياس الأكثر أهمية هو التكلفة الحسابية. في اختبارات LongMemEval، خفض MRAgent استهلاك رمز التلميح الخاص به إلى 118000 فقط. لكل عينة. للمقارنة، استخدم A-Mem 632000. الرموز المميزة، وLangMem 3.26 مليون رمز مميز لكل استعلام. كما نجح MRAgent أيضًا في خفض وقت التشغيل إلى النصف مقارنةً بـ A-Mem، حيث انخفض من 1122 ثانية إلى 586 ثانية.
ما يجعل MRAgent فعالاً في الممارسة العملية هو تشغيله عند الطلب. يؤدي تقييم العلامات وإزالة المسارات غير ذات الصلة قبل التنزيل إلى توفير المال ومساحة السياق. علاوة على ذلك، يقوم النظام بشكل مستقل بتقييم السياق الذي تم جمعه ويعرف تلقائيًا متى يجب إنهاء البحث، مما يتجنب تمامًا استخراج البيانات غير الضرورية.
ربط التنفيذ والتطوير
على الرغم من أن MRAgent فعال جدًا، إلا أنه يجب إعداد بنية Cue-Tag-Content قبل أن يتمكن الوكيل من الاستعلام عنها. يحتاج المطورون إلى تعلم كيفية تصميم قاعدة بيانات الذاكرة الأساسية للسماح لـ LLM بالتنقل بكفاءة بين العناصر الترابطية وإزالة المسارات غير ذات الصلة دون زيادة التكاليف الحسابية.
ولحسن الحظ، لا يتعين على المطورين تصنيف هذه البيانات أو تنظيمها يدويًا. صمم المؤلفون MRAgent بخط أنابيب تقطير آلي يستخدم LLM لمعالجة تواريخ التفاعل الأولية وملء الرسم البياني للذاكرة تلقائيًا. تتمثل مهمة المطور في تنفيذ وتنسيق مسار العرض الآلي هذا، وليس وضع علامة على البيانات يدويًا.
تحتاج إلى إعداد مهمة خلفية أو خط أنابيب دفق يمرر تفاعلات المستخدم الأولية من خلال قوالب سريعة لاستخراج بيانات التعريف هذه قبل كتابتها إلى قاعدة بيانات الرسم البياني.
ومع ذلك، يؤكد المؤلفون على أن هذه هي مرحلة البناء خفيف الوزن وأن MRAgent يضمن عمدًا بساطة الاستهلاك.
لقد جعل المؤلفون الكود متاحًا على جيثب.










