الرئيسية تكنولوجيا كيف قام ساكانا بتدريب 7B على تنسيق GPT-5 وClaude Sonnet 4 وGemini...

تكنولوجيا

كيف قام ساكانا بتدريب 7B على تنسيق GPT-5 وClaude Sonnet 4 وGemini 2.5 Pro

بواسطة

8 مايو 2026

يبدأ أي خط أنابيب LangChain يبنيه فريقك بشكل دائم في الانقطاع عندما يتغير توزيع الاستعلام – ويتغير دائمًا. هذا الاختناق هو ما شرع Sakana AI في القضاء عليه.

قدم العلماء في Sakana AI “موصل ر.ل“، نموذج لغة صغير تم تدريبه من خلال التعلم المعزز لتنسيق مجموعة متنوعة من العاملين في LLM تلقائيًا. يقوم الموصل بتحليل بيانات الإدخال ديناميكيًا، وتوزيع العمل بين العمال، وتنسيق الأنشطة بين الوكلاء.

يحقق هذا التنسيق الآلي أداءً متطورًا في اختبارات الاستدلال والتشفير الصعبة، ويتفوق في الأداء على النماذج الحدودية الفردية مثل GPT-5 وClaude Sonnet 4، بالإضافة إلى خطوط الأنابيب متعددة الوكلاء باهظة الثمن والمصممة بواسطة الإنسان. إنه يحقق هذا الأداء بجزء صغير من التكلفة وباستدعاءات أقل لواجهة برمجة التطبيقات (API) مقارنة بالمنافسين. يشكل RL Conductor أساس Fugu، خدمة التنسيق التجارية متعددة الوكلاء لشركة Sakana AI.

حدود هياكل الوكيل اليدوي

تتمتع نماذج اللغات الكبيرة بقدرات مخفية قوية. ومع ذلك، فإن استغلال هذه الفرص بشكل كامل يمثل تحديًا كبيرًا. يعتمد استخراج هذا المستوى من الأداء بشكل كبير على سير عمل الوكيل المصمم يدويًا والذي يعمل كمكونات مهمة لمنتجات الذكاء الاصطناعي التجارية.

ومع ذلك، فإن هذا الإطار ليس كافيا لأنه جامد ومحدود بطبيعته. في تعليقاته لـ VentureBeat، أوضح يوجين تانغ، المؤلف المشارك في الورقة البحثية، نقطة الألم الدقيقة للأنظمة الحالية: “عند استخدام أطر عمل ذات خطوط أنابيب مشفرة مثل LangChain وMixture-of-Agents، يمكن أن تؤدي أداءً جيدًا لحالات استخدام محددة… في بيئة الإنتاج، يحدث عنق الزجاجة المتأصل عند استهداف المجالات ذات قاعدة مستخدمين كبيرة ومتطلبات غير متجانسة للغاية.”

وأشار تانغ إلى أن تحقيق “التعميم في العالم الحقيقي عبر مثل هذه التطبيقات غير المتجانسة يتطلب بطبيعته تجاوز التصاميم البشرية المشفرة.”

هناك اختناق آخر في بناء أنظمة وكيل قوية وهو أنه لا يوجد نموذج واحد مثالي لجميع المهام. تم تصميم نماذج مختلفة للتخصص في مجالات مختلفة. قد يتفوق أحد النماذج في التفكير العلمي، بينما يكون الآخر أفضل في إنشاء التعليمات البرمجية أو المنطق الرياضي أو التخطيط عالي المستوى.

نظرًا لأن النماذج لها خصائص مختلفة ومهارات تكميلية، فمن المستحيل تقريبًا التنبؤ يدويًا وترميز مجموعة النماذج المثالية لكل استعلام. يجب أن يتيح الهيكل الأمثل المعتمد على الوكيل تحليل المشكلات وتفويض المهام الفرعية إلى الخبير الأكثر ملاءمة في المجموعة.

يقود أوركسترا من الوكلاء

تم تصميم دليل RL للتغلب على القيود المفروضة على الهياكل الصلبة التي من صنع الإنسان. وكما يوحي الاسم، فهو يقود أوركسترا من الوكلاء من خلال تقسيم المشكلات الصعبة، وتفويض مهام فرعية محددة، وتصميم طبولوجيا الاتصال لمجموعة من موظفي LLM.

بدلاً من الاعتماد على التعليمات البرمجية الثابتة أو التوجيه الثابت، يقوم الموصل بتنسيق هذه النماذج، مما يؤدي إلى إنشاء سير عمل مخصص. بالنسبة لكل خطوة من خطوات سير العمل، يقوم النموذج بإنشاء تعليمات باللغة الطبيعية لجانب معين من المهمة، ويعين وكيلًا لتنفيذها، ويحدد “قائمة الوصول” التي تحدد المهام الفرعية السابقة والاستجابات من الوكلاء الآخرين المضمنة في سياق ذلك الوكيل.

من خلال تحديد كل شيء باللغة الطبيعية، يقوم الموصل بإنشاء سير عمل مرن مصمم خصيصًا لكل إدخال. ويمكنه بناء سلاسل متسلسلة بسيطة، وهياكل شجرية متوازية، وحتى حلقات متكررة، اعتمادًا على متطلبات المشكلة.

موصل RL (المصدر: Sakana AI)

والأهم من ذلك، أن النموذج يتعلم هذه الاستراتيجيات ليس من خلال التصميم البشري، ولكن من خلال التعلم المعزز (RL) وتعظيم المكافأة. أثناء التدريب، يتلقى النموذج مهمة ومجموعة من العاملين وإشارة مكافأة بناءً على صحة الاستجابة وتنسيق الإخراج.

باستخدام خوارزمية RL البسيطة للتجربة والخطأ، يكتشف النموذج بشكل عضوي مجموعات التعليمات وهياكل الاتصال التي تحقق أعلى مكافأة. ونتيجة لذلك، فإنه يتبنى تلقائيًا استراتيجيات التنسيق المتقدمة مثل الهندسة السريعة المستهدفة، والتحسين التكراري، وتحسين التلميحات الوصفية.

يتعلم النموذج كيفية تكييف استراتيجياته ديناميكيًا والاستفادة من نقاط القوة لدى الوكلاء العاملين، دون الحاجة إلى مبرمج بشري لبرمجة العملية.

الموصل في العمل

لاختبار موصل RL أثناء العمل، قام الباحثون بضبط المعلمة رقم 7 مليار لـ Qwen2.5-7B باستخدام هذا الإطار. أثناء التدريب، تم تكليف القائد بتصميم سير عمل الوكيل الذي يتكون من خمس خطوات كحد أقصى. حصل على إمكانية الوصول إلى مجموعة عاملة تتكون من سبعة نماذج مختلفة: ثلاثة نماذج عملاقة مغلقة المصدر (Gemini 2.5 Pro وClaude-Sonnet-4 وGPT-5) وأربعة نماذج مفتوحة المصدر (بما في ذلك DeepSeek-R1-Distill-Qwen-32B وGemma3-27B وQwen3-32B).

قام الفريق بتقييم Conductor مقابل مجموعة متنوعة من المعايير الصعبة، ومقارنتها بالنماذج الرائدة الفردية التي تعمل من تلقاء نفسها، والوكلاء العاكسين ذاتيًا الذين تم تشجيعهم على تحسين استجاباتهم بشكل متكرر، ومنصات التوجيه متعددة الوكلاء الحديثة مثل MASRouter، وMixture-of-Agents (MoA)، وRouterDC، وSmoothie. لقد وضع الدليل الصغير 7B معايير جديدة في جميع المجالات. وفقًا للباحثين، فقد حقق متوسط درجات 77.27% في جميع المهام، وحقق 93.3% في اختبار الرياضيات AIME25، و87.5% في GPQA-Diamond و83.93% في LiveCodeBench.

ومن اللافت للنظر أنها حققت هذه التصنيفات مع الحفاظ على الأداء العالي. في حين أن النماذج الأساسية مثل MoA استخدمت 11,203 رمزًا مميزًا لكل سؤال، استخدم Conductor متوسط 1,820 رمزًا فقط، حيث أدى متوسط ثلاث خطوات فقط لكل سير عمل.

يتفوق موصل RL على النماذج الأساسية الأخرى في معايير الصناعة الرئيسية (المصدر: arXiv)

إن إلقاء نظرة فاحصة على التفاصيل التجريبية يوضح بالضبط سبب فعالية الإطار. يتعلم الموصل تلقائيًا قياس مدى صعوبة المهمة. بالنسبة لأسئلة تذكر الحقائق البسيطة، غالبًا ما يتم حل المشكلة في خطوة واحدة أو يتم استخدام إعداد أساسي ثنائي الوكيل. ومع ذلك، بالنسبة لمشكلات الترميز المعقدة، فقد قامت ببناء مسارات عمل واسعة النطاق مع ما يصل إلى أربعة وكلاء مع مراحل تخطيط ونشر وتحقق مخصصة.

تعلم الموصل أيضًا أن النماذج الحدودية لها نقاط قوة مختلفة. لتحقيق نتائج قياسية في معايير الترميز، غالبًا ما قام قائد الأوركسترا بتعيين Gemini 2.5 Pro وClaude Sonnet 4 كمخططين رفيعي المستوى، وفي النهاية فقط قدم GPT-5 لكتابة الكود النهائي الأمثل. في عرض ذكي بشكل خاص للقدرة على التكيف، تخلى القائد في بعض الأحيان عن دوره بالكامل، وسلم عملية التخطيط بأكملها إلى Gemini 2.5 Pro وسمح له بإملاء المهام الفرعية لبقية المجموعة.

بالإضافة إلى معايير الرياضيات والبرمجة، تطبق Sakana AI بالفعل البنية الأساسية للعمل في أداة المكتب الأمامي. وقال تانغ: “نحن نستخدم نماذج Fugu التي تعمل بالموصل داخليًا لمجموعة متنوعة من تطبيقات المؤسسات العملية: تطوير البرمجيات، والأبحاث المتعمقة، وتطوير الاستراتيجيات، وحتى المهام المرئية مثل إنشاء الشرائح”.

جلب التنسيق إلى المؤسسة: ساكانا فوجو

على الرغم من أن نموذج 7B الموصوف في ورقة البحث كان استكشافيًا بطبيعته وغير متاح للعامة، فقد طورت Sakana AI منصة Conductor لتصبح منتجها التجاري الرائد للذكاء الاصطناعي. ساكانا فوجو. حاليًا في مرحلة تجريبية، يعمل Fugu كنظام تنسيق متعدد الوكلاء، ويمكن الوصول إليه عبر واجهة برمجة التطبيقات القياسية المتوافقة مع OpenAI.

وأشار تانغ إلى أن فوجو تركز على “سوق كبير من الصناعات التي لم يؤد فيها اعتماد الذكاء الاصطناعي بعد إلى مكاسب إنتاجية كبيرة بسبب قيود التعميم على الطرق الحالية المشفرة مثل التمويل والدفاع”.

بالنسبة لمطوري المؤسسات، يتيح ذلك التكامل السلس مع التطبيقات الحالية دون الحاجة إلى إدارة مفاتيح API متعددة أو توجيه العمل يدويًا إلى موردين مختلفين. وراء واجهة برمجة التطبيقات (API)، تقوم Fugu بأتمتة طبولوجيا التعاون المعقدة وتعيينات الأدوار ضمن مجموعة من النماذج. لتلبية مجموعة متنوعة من احتياجات العمل، أصدرت سكنا نوعين مختلفين: Fugu Mini، المصمم للعمليات ذات زمن الوصول المنخفض، وFugu Ultra، المصمم لتحقيق أقصى قدر من الأداء في ظل أعباء العمل الصعبة.

وفي معرض تناوله لمخاوف الإدارة بشأن الوكلاء المستقلين الذين يديرون مسارات عمل غير مرئية، أشار تانغ إلى أن مخاطر التفسير تشبه وظيفيًا آثار الاستدلال الخفية لواجهات برمجة التطبيقات ذات المستوى الأعلى المغلقة الحالية، ويتم إدارة النظام باستخدام حواجز حماية ثابتة لتقليل الهلوسة.

بالنسبة لمهندسي المؤسسات الذين يفكرون في وقت تنفيذ تنسيق RL بدلاً من التوجيه التقليدي، غالبًا ما يعود القرار إلى الموارد الهندسية. وقال تانغ: “نعتقد أن الحل الأفضل هو عندما يشعر المستخدمون وفرقهم أنهم يقضون وقتًا غير متناسب في تقديم المشورة إلى وكلائهم”. ومع ذلك، فقد حذر من أن إطار العمل ليس ضروريًا لكل شيء، مشيرًا إلى أنه “من الصعب التغلب على اقتصاديات النموذج المحلي الذي يعمل مباشرة على جهاز المستخدم للاستعلامات البسيطة”.

مع تزايد مجموعة متنوعة من نماذج الذكاء الاصطناعي المتخصصة مفتوحة المصدر ومغلقة المصدر، ستصبح خطوط الأنابيب الثابتة ذات الترميز الثابت عتيقة حتماً. وبالنظر إلى المستقبل، من المرجح أن يمتد هذا التنسيق الديناميكي إلى ما هو أبعد من بيئات النص والتعليمات البرمجية. وقال تانغ: “هناك بالفعل إمكانات كبيرة لسد هذه الفجوة بأطر الموصلات متعددة الوسائط التي ستصبح أساسًا لأنظمة الذكاء الاصطناعي المادية الأكثر استقلالية وتنسيقًا ذاتيًا”.

رابط المصدر

كيف قام ساكانا بتدريب 7B على تنسيق GPT-5 وClaude Sonnet 4 وGemini 2.5 Pro

حدود هياكل الوكيل اليدوي

يقود أوركسترا من الوكلاء

الموصل في العمل

جلب التنسيق إلى المؤسسة: ساكانا فوجو

آخر الأخبار

هل تستطيع المدارس تحمل مستقبل الذكاء الاصطناعي أولاً؟

دراسة AIIMS تكشف الفوائد المحتملة لليوجا لمرضى الزهايمر، EHealthworld

قائمة المهام التي يجب القيام بها في فصل الصيف: 9 أشياء...

Mcap من بين 9 شركات من الأكثر قيمة يقفز 2.15 تريليون...

الأنثروبي، وأمازون، وإغلاق الحكاية؛ وصول المدرسة التي تعمل بالذكاء الاصطناعي؛ تكنولوجيا...

كأس العالم 2026: مدرب كرة القدم الإيراني يقول إن قواعد السفر...

كيف يمكن لمدارس كاليفورنيا المساعدة في حل مشكلة تشرد الطلاب؟

هولي ماديسون من بلاي بوي تكسر الصمت بشأن نزاع كيندرا ويلكنسون...

الذكاء الاصطناعي في الخدمات المصرفية يحدد جدول أعمال القمة السنوية الثالثة...

تتوقع الأسواق تحديثًا أسبوعيًا لتدفقات FCNR (B) بموجب نظام المبادلة |...

فئة