الرئيسية تكنولوجيا قام الباحثون بأتمتة تصميم استراتيجيات الاستدلال LLM وخفض استخدام الرمز المميز بنسبة...

تكنولوجيا

قام الباحثون بأتمتة تصميم استراتيجيات الاستدلال LLM وخفض استخدام الرمز المميز بنسبة 69.5٪

بواسطة

28 مايو 2026

لقد أثبت مقياس وقت الاختبار (TTS) أنه وسيلة مجربة لتحسين أداء نماذج اللغة الكبيرة في تطبيقات العالم الحقيقي من خلال تزويدها بدورات حسابية إضافية أثناء الاستدلال. ومع ذلك، في الماضي، تم تطوير استراتيجيات تحويل النص إلى كلام يدويًا واعتمدت بشكل كبير على الحدس البشري لإملاء قواعد الاستدلال الخاصة بالنموذج.

ولمعالجة هذا الاختناق، قدم باحثون من ميتا وجوجل والعديد من الجامعات حلاً أوتو تي تي إسالإطار الذي يكتشف تلقائيًا استراتيجيات تحويل النص إلى كلام (TTS) المثالية. يمكّن هذا النهج الآلي مؤسسات المؤسسة من تحسين تخصيص الحوسبة ديناميكيًا دون الحاجة إلى ضبط الاستدلالات يدويًا.

من خلال تنفيذ الاستراتيجيات المثلى التي اكتشفها AutoTTS، يمكن للمؤسسات تقليل استخدام الرمز المميز وتكاليف التشغيل المرتبطة بنشر نماذج الاستدلال المتقدمة في بيئات الإنتاج بشكل مباشر. في التجارب التجريبية، نجح AutoTTS في إدارة ميزانيات الاستدلال، ونجح في تقليل استهلاك الرمز بنسبة تصل إلى 69.5% دون التضحية بالدقة.

الاختناق اليدوي في قياس وقت الاختبار

يؤدي توسيع نطاق وقت الاختبار إلى تبسيط LLMs من خلال منحهم قوة معالجة إضافية عند إنشاء الاستجابات. تسمح هذه الحسابات الإضافية للنموذج بإنشاء مسارات تفكير متعددة أو تقييم خطواته المتوسطة قبل الوصول إلى الإجابة النهائية.

التحدي الأساسي في تصميم استراتيجية تحويل النص إلى كلام هو تحديد كيفية تخصيص هذا الحساب الإضافي على النحو الأمثل. تاريخيًا، صمم الباحثون هذه الاستراتيجيات يدويًا، معتمدين على التخمين لبناء استدلالات صارمة. يجب على المهندسين وضع افتراضات حول القواعد والعتبات التي تحدد متى يجب أن يتفرع النموذج إلى مسارات تفكير جديدة، أو يتعمق أكثر في مسار موجود، أو يقلم فرعًا غير واعد، أو يتوقف عن التفكير تمامًا.

نظرًا لأن عملية الضبط اليدوية هذه محدودة بالحدس البشري، فإن عددًا كبيرًا من الأساليب الممكنة لا يزال غير مستكشف. يؤدي هذا غالبًا إلى مقايضة دون المستوى الأمثل بين دقة النموذج والتكلفة الحسابية.

يمكن تعيين خوارزميات TTS الحالية إلى مساحة تحكم العرض والعمق – “العرض” هو عدد فروع الاستدلال التي تم استكشافها، و”العمق” هو الدرجة التي تم تطوير كل فرع إليها. يقيس الاتساق الذاتي (SC) عددًا محددًا من المسارات وتصوت الأغلبية للإجابة. يعمل الاتساق التكيفي (ASC) على حفظ العمليات الحسابية عن طريق التوقف مبكرًا عند الوصول إلى حد الثقة. يتخذ المسبار الموازي نهجًا أكثر تفصيلاً، حيث يقوم بتقليم الفروع غير الواعدة بينما يقوم بتعميق الباقي. الثلاثة جميعها مصنوعة يدويًا وهذا هو القيد الذي تهدف AutoTTS إلى التغلب عليه.

في حين أن بعض الأساليب الأكثر تقدمًا تستخدم هياكل أكثر ثراءً مثل البحث الشجري أو أدوات التحقق الخارجية، إلا أنها جميعًا تشترك في شيء واحد: فهي مصنوعة يدويًا بدقة. يحد هذا النهج اليدوي من نطاق اكتشاف الإستراتيجية، مما يترك جزءًا كبيرًا من مساحة تخصيص الموارد المحتملة دون تغيير.

الاكتشاف التلقائي للاستراتيجية باستخدام AutoTTS

يقوم AutoTTS بتغيير الطريقة التي تقوم بها بتحسين قياس وقت الاختبار. بدلاً من التعامل مع تصميم الإستراتيجية كمهمة بشرية، يتعامل AutoTTS معها كمشكلة بحث خوارزمية في بيئة خاضعة للرقابة.

يعيد هذا الإطار تحديد دور كل من المهندس البشري ونموذج الذكاء الاصطناعي. بدلاً من صياغة قواعد مفصلة يدويًا عندما يجب على LLM أن تتفرع أو تقليم أو تتوقف عن التفكير، يتحول دور المهندس إلى إنشاء بيئة الاكتشاف. يحدد البشر الحدود، بما في ذلك مساحة التحكم في الحالات والإجراءات، وأهداف التحسين التي توازن بين الدقة والتكلفة، وآليات ردود الفعل المحددة.

إطار عمل AutoTTS (المصدر: arXiv)

تم تصميم الإستراتيجية بواسطة مستكشف LLM مثل Claude Code. يعمل هذا المستكشف كعامل مستقل يقترح بشكل متكرر “وحدات تحكم TTS”. وحدات التحكم هذه عبارة عن قواعد أو خوارزميات محددة في التعليمات البرمجية التي تحدد كيفية تخصيص نموذج الذكاء الاصطناعي لميزانيته الحسابية أثناء الاستدلال. يقوم المستكشف باختبار وحدات التحكم هذه وتحسينها بناءً على الملاحظات حتى يكتشف سياسة تخصيص الموارد المثلى.

لجعل هذا البحث التلقائي غير مكلف من الناحية الحسابية، يعتمد AutoTTS على “بيئة التشغيل دون اتصال بالإنترنت”. إذا اضطر باحث LLM إلى استدعاء نموذج الاستدلال الأساسي لتوليد رموز جديدة في كل مرة يختبر فيها استراتيجية جديدة، فإن التكاليف الحسابية ستكون فلكية. وبدلاً من ذلك، فهو يعتمد على الآلاف من مسارات الاستدلال التي تم جمعها مسبقًا من ماجستير القانون الأساسي. تتضمن هذه المسارات “إشارات التحقيق”، وهي استجابات وسيطة تساعد المراقب على تقييم التقدم في مختلف فروع التفكير.

أثناء حلقة الاكتشاف، يقترح وكيل المستكشف وحدة تحكم ويقيمها بناءً على البيانات غير المتصلة بالإنترنت. يلاحظ الوكيل آثار تنفيذ وحدة التحكم المقترحة، والتي توضح القوة الحسابية المخصصة له مع مرور الوقت. من خلال تحليل هذه الآثار، يمكن للوكيل تشخيص أوضاع فشل محددة، على سبيل المثال ملاحظة ما إذا كانت وحدة التحكم قد قامت بتقليم الفروع بقوة كبيرة في سيناريو معين. يمنحك هذا ميزة مجرد مشاهدة النتيجة النهائية. يقوم الوكيل بعد ذلك بإعادة كتابة التعليمات البرمجية الخاصة به بشكل متكرر لتحسين نسبة الدقة إلى التكلفة.

داخل وحدة تحكم مصممة بالذكاء الاصطناعي

نظرًا لأن عامل الاكتشاف لا يقتصر على الحدس البشري، فيمكنه اكتشاف قواعد معقدة ومنسقة للغاية، ومن المحتمل ألا يقوم المهندس البشري أبدًا بتشفيرها يدويًا. إحدى وحدات التحكم المثالية التي اكتشفها AutoTTS، تسمى Confidence Momentum Controller، تستخدم عدة آليات غير واضحة لإدارة الحسابات:

التوقف على أساس الاتجاه: غالبًا ما تقوم الاستراتيجيات التي تم تطويرها يدويًا بتوجيه النموذج إلى التوقف عن التفكير بمجرد وصوله إلى حد معين من الثقة اللحظية. اكتشف وكيل AutoTTS أن الثقة اللحظية يمكن أن تكون مضللة بسبب الارتفاعات المؤقتة. بدلا من ذلك، يتتبع جهاز التحكم المتوسط المتحرك الأسي (EMA) للثقة ويتوقف فقط عندما يكون مستوى الثقة العام مرتفعا ولا يتناقص الاتجاه بشكل نشط.
الجمع بين العرض وتعديل العمق: تتعامل الخوارزميات المصممة يدويًا عادةً مع “توسيع” مسارات التفكير الجديدة و”تعميق” المسارات الحالية كقرارات منفصلة. اكتشف AutoTTS حلقة تعليقات مغلقة حيث يرتبط كلا النشاطين. إذا تعطلت ثقة الفروع الحالية أو انخفضت، فسوف تقوم وحدة التحكم تلقائيًا بتشغيل إنشاء فروع جديدة.
تخصيص عمق علم المحاذاة: بدلاً من إعطاء جميع فروع الاستدلال النشط ميزانية حسابية متساوية، يحدد السائق ديناميكيًا الفروع التي تتفق مع الإجابة الرائدة الحالية. ثم يقوم بعد ذلك بإعطاء الأولوية لهذه الفروع لإجراء “دفعات” من العمليات الحسابية الإضافية. وهذا يركز الميزانية الحسابية على الإجماع الناشئ للتحقق بسرعة من صحته.

توفير التكاليف وزيادة الدقة في معايير العالم الحقيقي

ولاختبار ما إذا كان الذكاء الاصطناعي يمكنه اكتشاف استراتيجية توسيع أفضل من تلقاء نفسه أثناء الاختبار، طور الباحثون إطارًا صارمًا للتقييم. تم إجراء التجارب الأساسية على نماذج Qwen3 ذات المعلمات من 0.6B إلى 8B. اختبر الباحثون أيضًا قدرة تعميم النظام على نسخة 8B المقطرة من نموذج DeepSeek-R1.

في البداية، تم تكليف وكيل مستكشف الذكاء الاصطناعي باكتشاف الإستراتيجية المثالية باستخدام معيار الاستدلال الرياضي AIME24. تم بعد ذلك اختبار الإستراتيجية المكتشفة في اختبارين رياضيين معترف بهما على نطاق واسع، AIME25 وHMMT25، بالإضافة إلى اختبار الاستدلال العام لمستوى الماجستير GPQA-Diamond.

تمت مقارنة وحدة التحكم AutoTTS المكشوفة بأربعة خوارزميات مصممة يدويًا لقياس وقت الاختبار والمستخدمة في الصناعة. تضمنت خطوط الأساس هذه الاتساق الذاتي مع 64 مسارًا للاستدلال المتوازي (SC@64)، والتماسك التكيفي (ASC)، والمسبار المتوازي، والتوقف المبكر عن الاتساق الذاتي (ESC). ESC هو نهج هجين يولد مسارات متوازية ويتوقف مبكرًا عندما تبدو الاستجابة مستقرة.

يتفوق أداء AutoTTS (الخط الأحمر) على خطوط الأساس الأخرى في معايير الصناعة (المصدر: arXiv)

عند التعيين على الوضع المتوازن والمتفرق، قامت وحدة التحكم التي اكتشفها AutoTTS بتقليل استهلاك الرمز المميز بنسبة 69.5% تقريبًا مقارنة بـ SC@64. وفي الوقت نفسه، حافظت وحدة التحكم على نفس متوسط الدقة في جميع نماذج Qwen الأربعة. عندما تمت زيادة ميزانية الاستدلال، في خمس من حالات الاختبار الثماني، تجاوز AutoTTS جميع خطوط الأساس التي تم تطويرها يدويًا.

وترجمت هذه الكفاءة إلى مهام أخرى. في اختبار GPQA-Diamond، قلل متغير AutoTTS المتوازن من تكلفة رموز الاستدلال من 510,000. الرموز إلى 151 ألف رمز فقط مع تحسين الدقة الإجمالية بشكل طفيف. في نموذج DeepSeek، حققت AutoTTS أعلى دقة إجمالية وفقًا لمعيار HMMT25 مع تقليل إنفاق الرمز المميز بمقدار النصف تقريبًا.

تسلط هذه التجارب الضوء على فائدتين تشغيليتين رئيسيتين للممارسين الذين يقومون ببناء تطبيقات الذكاء الاصطناعي للمؤسسات:

رفع الحد الأقصى للأداء: لا يوفر لك AutoTTS المال عند استخدام الرمز المميز فحسب. يعمل بشكل فعال على زيادة الحد الأقصى للأداء الذي يمكن تحقيقه للنموذج الأساسي. تعتبر وحدة التحكم المصممة بواسطة الذكاء الاصطناعي جيدة بشكل استثنائي في اكتشاف فروع الاستدلال الصاخبة أو غير المنتجة بسرعة وإعادة توجيه ميزانيتها الحسابية باستمرار نحو الفروع التي تولد إشارات الاستدلال الأكثر فائدة.
تطوير مخصص فعال من حيث التكلفة: نظرًا لأن النظام الأساسي يعتمد على بيئة التشغيل دون الاتصال بالإنترنت، فإن عملية الاكتشاف بأكملها تكلف 39.90 دولارًا فقط وتستغرق 160 دقيقة. بالنسبة لفرق المؤسسة، يعني هذا أن استراتيجيات الاستدلال المحسنة والمصممة خصيصًا لنماذج الملكية والمهام الداخلية أصبحت الآن في متناول أيديهم – بدون ميزانية بحث مخصصة.

كلاهما هيكل AutoTTS وConfidence Momentum Controller متاحان على GitHub؛ يمكن استخدام CMC كبديل لوحدات تحكم TTS الأخرى.

رابط المصدر

قام الباحثون بأتمتة تصميم استراتيجيات الاستدلال LLM وخفض استخدام الرمز المميز بنسبة 69.5٪

الاختناق اليدوي في قياس وقت الاختبار

الاكتشاف التلقائي للاستراتيجية باستخدام AutoTTS

داخل وحدة تحكم مصممة بالذكاء الاصطناعي

توفير التكاليف وزيادة الدقة في معايير العالم الحقيقي

آخر الأخبار

يدافع بوندي عن التعامل مع ملفات إبستين أمام لجنة مجلس النواب

يؤكد مكتب التحقيقات الفيدرالي أن 25 مجموعة من برامج الفدية تستخدم...

سوناكشي سينها تؤجر شقة في مومباي للقنصلية الكويتية مقابل 16 ألف...

معركة أوروبا للبقاء في سباق الذكاء الاصطناعي – Talking Europe

لماذا يزيد الذكاء الاصطناعي وانتشار الهوية من المخاطر الأمنية بشكل كبير:...

أديتيا سيل وأنوشكا رانجان يعلنان عن حملهما الأول موني راي وأنانيا...

وتقول المجموعة الطبية السودانية إن المقاتلين المدعومين من قوات الدعم السريع...

4 أغانٍ حددت الصوت الكلاسيكي في الثمانينيات

يتم إغلاق مصنع الجعة الرائد بعد 18 عامًا

32 أفضل هدايا عيد الأب في عام 2026: هدايا CNET الأكثر...

فئة