كيف يعمل RecursiveMAS على تسريع الاستدلال متعدد العوامل بمقدار 2.4x وتقليل استخدام الرمز المميز بنسبة 75%

أحد التحديات الرئيسية التي تواجه أنظمة الذكاء الاصطناعي الحالية متعددة الوكلاء هو أنها تتواصل من خلال إنشاء تسلسلات نصية ومشاركتها، مما يؤدي إلى زمن الوصول، ويزيد من تكاليف الرمز المميز، ويجعل من الصعب تدريب النظام بأكمله كوحدة متماسكة.

وقد طور علماء من جامعة إلينوي في أوربانا شامبين وجامعة ستانفورد حلاً للتغلب على هذا التحدي عوديMOREبيئة تسمح للوكلاء بالتعاون ونقل المعلومات عن طريق تضمين المساحة بدلاً من النص. وينتج عن هذا التغيير مكاسب في الكفاءة والأداء.

تظهر التجارب أن RecursiveMAS يحقق تحسينات في الدقة في المجالات المعقدة مثل إنشاء التعليمات البرمجية والتفكير الطبي والبحث، مع زيادة سرعة الاستدلال وتقليل استخدام الرمز المميز.

يعد RecursiveMAS أرخص بكثير في التدريب من أساليب الضبط الكامل أو LoRA القياسية، مما يجعله حلاً قابلاً للتطوير وفعالاً من حيث التكلفة للأنظمة المخصصة متعددة الوكلاء.

تحديات تحسين الأنظمة متعددة الوكلاء

أنظمة متعددة الوكلاء يمكن أن يساعد في حل المهام المعقدة التي تواجهها أنظمة الوكيل الفردي. عند توسيع نطاق الأنظمة متعددة الوكلاء لتطبيقات العالم الحقيقي، يتمثل التحدي الكبير في السماح للنظام بالتطور والتحسين والتكيف مع سيناريوهات مختلفة بمرور الوقت.

يعمل التكيف القائم على الإشارات على تحسين تفاعلات الوكلاء من خلال تحسين السياق المشترك المقدم للوكلاء بشكل متكرر. ومن خلال تحديث المطالبات، يعمل النظام كمدير، حيث يوجه الوكلاء لإنشاء استجابات أكثر اتساقًا مع الهدف الشامل. والقيد الأساسي هو أن قدرات النماذج التي يقوم عليها كل وكيل تظل ثابتة.

يتضمن النهج الأكثر تطوراً تدريب الوكلاء من خلال تحديث أوزان النماذج الأساسية. يعد تدريب نظام الوكيل بأكمله أمرًا صعبًا لأن تحديث جميع المعلمات عبر نماذج متعددة ليس بالأمر السهل من الناحية الحسابية.

حتى لو التزم فريق من المهندسين بتدريب نماذجهم، فإن الطريقة القياسية للتواصل مع الوكلاء عبر التفاعلات النصية تخلق اختناقات خطيرة. نظرًا لأن الوكلاء يعتمدون على إنشاء النص المتسلسل، فإن هذا يقدم زمن الوصول لأن كل نموذج يجب أن ينتظر حتى ينتهي النموذج السابق من إنشاء النص قبل أن يتمكن من بدء المعالجة الخاصة به.

إن إجبار النماذج على تقديم تفكيرها غير المباشر حرفًا تلو الآخر حتى يتمكن النموذج التالي من قراءته هو أمر غير فعال إلى حد كبير. إنه يؤدي إلى تضخيم استخدام الرمز المميز بشكل كبير، ويزيد من التكاليف الحسابية، ويجعل توسيع نطاق التعلم التكراري عبر النظام بطيئًا بشكل مؤلم.

كيف يعمل RecursiveMAS

بدلاً من محاولة تحسين كل وكيل كمكون معزول وقائم بذاته، تم تصميم RecursiveMAS لتطوير وتوسيع نطاق النظام متعدد الوكلاء بأكمله باعتباره كلًا واحدًا متكاملًا.

الإطار مستوحى من نماذج اللغة العودية (رلم). في نموذج اللغة القياسي، تتدفق البيانات خطيًا عبر مجموعة من الطبقات المميزة. في المقابل، يعيد نموذج اللغة العودية استخدام مجموعة من الطبقات المشتركة التي تعالج البيانات وتمررها مرة أخرى إلى بعضها البعض. من خلال تكرار العمليات الحسابية، يمكن للنموذج تعميق منطقه دون إضافة معلمات.

بنية RecursiveMAS (المصدر: arXiv)

يعمل RecursiveMAS على توسيع مبدأ القياس هذا من نموذج واحد إلى بنية متعددة الوكلاء تعمل كنظام عودي موحد. في هذا الإعداد، يعمل كل وكيل كطبقة في نموذج لغة متكرر. بدلاً من إنشاء نص، يقوم الوكلاء بتمرير تمثيلاتهم المخفية المستمرة إلى الوكيل التالي في التسلسل، مما يؤدي إلى إنشاء تدفق متكرر ومخفي من المعلومات التي تتدفق عبر النظام.

يستمر هذا التسليم الخفي من خلال جميع الوكلاء. عندما ينتهي العميل الأخير من المعالجة، يتم إرسال مخرجاته المخفية مباشرة إلى الوكيل الأول، لتبدأ جولة جديدة من العودية.

تسمح هذه البنية للنظام متعدد الوكلاء بأكمله بالتفاعل والتفكير وتحسين تفكيره الجماعي عبر جولات متعددة، بالكامل في مساحة مخفية، مع قيام الوكيل الأخير فقط بإنتاج النص في الجولة النهائية. يبدو الأمر كما لو أن الوكلاء يتواصلون بشكل تخاطري كوحدة موحدة، حيث يقدم الوكيل النهائي الرد النهائي في شكل نص.

بنية التعاون الخفي

لتمكين التعاون المستمر في الفضاء المخفي، يقدم المؤلفون مكونًا معماريًا متخصصًا يسمى RecursiveLink. إنها وحدة خفيفة الوزن مكونة من طبقتين مصممة لنقل حالات النموذج المخفية وتحسينها بدلاً من إجبارها على فك تشفير النص.

تحتوي الحالات المخفية للطبقة الأخيرة من نموذج اللغة على تمثيل دلالي غني لعملية الاستدلال. تم تصميم RecursiveLink للحفاظ على هذه المعلومات متعددة الأبعاد ونقلها من مساحة تضمين إلى أخرى.

لتجنب تكلفة تحديث كل معلمة عبر العديد من نماذج اللغات الكبيرة، يحافظ النظام الأساسي على تجميد معلمات النموذج. وبدلاً من ذلك، فهو يعمل على تحسين النظام من خلال تعلم معلمات وحدات RecursiveLink فقط.

عملية التعلم العودية (المصدر: arXiv)

للتعامل مع كل من الاستدلال الداخلي والتواصل الخارجي، يستخدم النظام نسختين مختلفتين من الوحدات. يتم تشغيل RecursiveLink الداخلي داخل الوكيل في مرحلة التفكير. يأخذ عمليات تضمين النموذج التي تم إنشاؤها حديثًا ويعيد تعيينها مباشرةً إلى مساحة تضمين المدخلات الخاصة به. يسمح هذا للوكيل بإنشاء دفق من الأفكار المخفية بشكل مستمر دون إنشاء رموز نصية منفصلة.

يعمل RecursiveLink الخارجي كجسر بين الوكلاء. نظرًا لأن الوكلاء في النظام الحقيقي قد يستخدمون بنيات وأحجام نماذج مختلفة، فإن مساحات التضمين الداخلية الخاصة بهم لها أبعاد مختلفة تمامًا. يحتوي RecursiveLink الخارجي على طبقة إضافية مصممة لمطابقة عمليات التضمين من البعد المخفي لأحد الوكلاء إلى مساحة التضمين الخاصة بالوكيل التالي.

أولاً، أثناء التدريب، يتم تدريب الروابط الداخلية بشكل مستقل لتنشيط قدرة كل عميل على إجراء التضمين السري المستمر. ينتقل النظام بعد ذلك إلى التدريب على الحلقة الخارجية، حيث يتم دمج مجموعة متنوعة من النماذج المجمدة في حلقة ويتم تقييم النظام بناءً على نص الإخراج النهائي للوكيل الأخير.

الشيء الوحيد الذي يتم تحديثه أثناء عملية التدريب هو معلمات RecursiveLink، وتبقى أوزان النموذج الأصلي دون تغيير، وكذلك التكيف منخفض الرتبة (لورا). ميزة أخرى لهذا النظام تأتي عندما يكون لديك عدة وكلاء على نفس الإطار السلكي.

إذا كان لديك نظام متعدد الوكلاء حيث يتم إنشاء وكيلين على نفس النموذج الأساسي تمامًا ويقومان بأدوار مختلفة، فلن تحتاج إلى تحميل نسختين من النموذج في ذاكرة وحدة معالجة الرسومات أو تدريبهما بشكل منفصل. سيكون للوكلاء نفس الهيكل العظمي للدماغ وسيستخدمون RecursiveLink كنسيج ضام.

RecursiveMAS في العمل

قام الباحثون بتقييم RecursiveMAS على تسعة معايير تغطي الرياضيات والعلوم والطب، وتوليد التعليمات البرمجية، والإجابة على الأسئلة القائمة على البحث. لقد أنشأوا نظامًا متعدد الوكلاء باستخدام نماذج الوزن المفتوح بما في ذلك Qwen وLlama-3 وGemma3 وMistral. يتم تعيين أدوار لهذه النماذج لإنشاء أنماط مختلفة لتعاون الوكيل، مثل التفكير المتسلسل والتعاون متعدد الخبراء.

يعمل RecursiveMAS على تحسين سرعة الاستدلال بمقدار 1.2-2.2X (المصدر: GitHub)

تمت مقارنة RecursiveMAS بخطوط الأساس ذات ميزانيات تدريب متطابقة، بما في ذلك النماذج المستقلة المعززة باستخدام LoRA أو الضبط الخاضع للإشراف الكامل، والمنصات البديلة متعددة الوكلاء مثل Mixture-of-Agents وTextGrad، ونماذج خط الأساس العودية مثل LoopLM. تمت مقارنته أيضًا بـ Recursive-TextMAS، الذي يستخدم نفس بنية الحلقة العودية مثل RecursiveMAS ولكنه يجبر الوكلاء على التواصل بشكل صريح عبر النص.

حقق RecursiveMAS تحسنًا متوسطًا في الدقة بنسبة 8.3% مقارنة بأقوى خطوط الأساس في المعايير. لقد تفوق بشكل خاص في المهام كثيفة الاستدلال، حيث تفوق في الأداء على أساليب التحسين المستندة إلى النص مثل TextGrad بنسبة 18.1% لـ AIME2025 و13% لـ AIME2026.

RecursiveMAS يقلل من استهلاك الرمز المميز بنسبة تصل إلى 75% (المصدر: GitHub)

نظرًا لتجنب إنشاء النص في كل خطوة، حقق RecursiveMAS تسريعًا للاستدلال الشامل بمعدل 1.2 إلى 2.4 مرة. يعد RecursiveMAS أيضًا أكثر كفاءة من حيث الرمز المميز من البديل. بالمقارنة مع النص، يقلل Recursive-TextMAS من استخدام الرمز المميز بنسبة 34.6% في الجولة الأولى من التكرار، ويحقق تخفيضًا مميزًا بنسبة 75.6% في الجولة الثالثة. أثبت RecursiveMAS أيضًا أنه رخيص للغاية للتدريب. نظرًا لأنه يقوم فقط بتحديث وحدات RecursiveLink خفيفة الوزن، والتي تتكون من حوالي 13 مليون معلمة أو ما يقرب من 0.31% من المعلمات القابلة للتدريب للنماذج المجمدة، فإنه يتطلب أقل ذاكرة GPU ذروة ويقلل تكاليف التدريب بأكثر من النصف مقارنة بالضبط الكامل.

التبني في المؤسسة

من المتوقع أن تؤدي مكاسب الأداء – انخفاض استهلاك الرمز المميز، وتقليل متطلبات ذاكرة وحدة معالجة الرسومات، والاستدلال الأسرع – إلى جعل سير عمل الوكيل المعقد ومتعدد الخطوات قابلاً للتطبيق في بيئات الإنتاج دون العبء الحسابي الذي يحد من عمليات نشر الوكيل في المؤسسة. لقد نشر العلماء شفرة و الأوزان النموذجية المدربة تحت رخصة أباتشي 2.0.

رابط المصدر