يقلل Kimi K2.7-Code من رموز التفكير بنسبة 30% – لكن الممارسين يقولون إن المعايير غير كافية

أصدرت Moonshot AI هذا الأسبوع Kimi K2.7-Code، وهو تحديث مفتوح المصدر لعائلة K2 من نماذج البرمجة، مما يوفر تفكيرًا أبسط ومكاسب في الأداء مكونة من رقمين.

تم بناء K2.7-Code على نفس بنية تريليون معلمة مثل سابقتها K2.6 ويتم تنفيذها عبر واجهة برمجة التطبيقات المتوافقة مع OpenAI – وهو أمر مهم للفرق التي تستخدم بالفعل K2.6 في بوابات الإنتاج.

عندما تم إطلاق K2.6 في أبريل، تصدرت قائمة صدارة LLM الأسبوعية لـ OpenRouter – وهو تصنيف يعتمد على قرارات توجيه واجهة برمجة التطبيقات الفعلية للمطورين، وليس النتائج المعيارية المبلغ عنها ذاتيًا.

تدعي Moonshot AI أن K2.7-Code يحل ما تسميه “التفكير الزائد” عن طريق تقليل استخدام الرموز المميزة للفكر بنسبة 30% مقارنة بـ K2.6 – وهو رقم يؤثر بشكل مباشر على تكاليف الاستدلال للفرق التي تنفذ سير العمل القائم على الوكيل. ما إذا كانت مكاسب الأداء هذه تصمد في الاختبارات المستقلة هو السؤال الذي بدأ الممارسون بالفعل في طرحه علنًا.

ما هو كود كيمي K2.7

تم إصدار كود K2.7 بموجب ترخيص MIT المعدل والمقاييس متاحة على HuggingFace. يمكن نشر النموذج عبر vLLM أو SGLang. إنه يعمل فقط في وضع التفكير ولا يدعم التحكم في درجة الحرارة – قام Moonshot AI بإصلاح هذا الخيار في الإصدار 1.0، مما يعني أن الفرق لا يمكنها ضبط حتمية الإخراج بنفس الطريقة التي يمكنها بها مع النماذج الأخرى.

التغيير الرئيسي من K2.6 هو الطريقة التي ينشئ بها النموذج تعليمات برمجية منخفضة المستوى. حيث يقوم K2.6 بإنشاء تطبيقات من خلال تغليف المكتبات الموجودة والتوجيه من خلال أطر عمل ثابتة، يقوم K2.7-Code بإنشاء تطبيقات مباشرة. تدعي Moonshot AI أن هذا يوفر تعميمًا أكثر قوة عبر Rust وGo وPython وعبر مجموعة متنوعة من أنواع المهام، بما في ذلك تطوير الواجهة الأمامية وDevOps وتحسين الأداء.

في معايير Moonshot AI، شهدت زيادة بنسبة 21.8% في Kimi Code Bench v2، و11% في Program Bench و31.5% في MLS Bench Lite. الثلاثة كلها عبارة عن معايير خاصة تديرها شركة Moonshot AI. لم يتم إرسال النموذج إلى DeepSWE، وهو معيار ترميز مستقل ينتج فارق 70 نقطة بين النماذج – مقارنةً بانتشار SWE-Bench Pro البالغ 30 نقطة – مما يجعله إشارة أكثر وضوحًا للفرق التي تقوم بتكوين أنظمة توجيه النموذج.

تحول VB · 14-15 يوليو · مينلو بارك · الاستدلال والبنية التحتية للذكاء الاصطناعي

حققت جنرال موتورز زيادة بنسبة 300% في العلاقات العامة المتصلة من خلال تغيير بنية وكيلها. هذا ما بنوه.

يغطي مسار البنية التحتية في Transform إنشاء الفيديو في الوقت الفعلي، ومكدسات الاستدلال من آلة إلى آلة، وما يتطلبه الأمر فعليًا لتشغيل الوكلاء على نطاق المؤسسة.

انظر جدول الأعمال الكامل →

أكثر صدقا، أضعف

الصورة خارج معايير Moonshot الخاصة أكثر تعقيدًا.

قام الباحث Elliot Arledge بمقارنة K2.7-Code مع K2.6 وClaude Fable 5 على KernelBench-Hard، وهو معيار عام يركز على تحسين نواة وحدة معالجة الرسومات، ونشر سجلات التشغيل الكاملة الخاصة به على kernelbench.com.

“K2.7 أكثر صدقًا، لكنه ليس أكثر قدرة” كتب Arledge على X.

بالنسبة لخمسة من الإصدارات الستة، أنشأ K2.7-Code نواة Triton مملوكة حقًا، حيث استخدم K2.6 أغلفة المكتبة. فشلت اثنتان من هذه النوى بسبب أخطاء في النموذج نفسه. انخفضت درجة نواة وزارة التعليم من درجة K2.6 البالغة 0.222 إلى 0.157.

وكتب أرليدج: “بالمقارنة، تتفوق Fable على كل خلية ولا تفشل في الواقع”.

استجاب سوجوماران بالاسوبرامانيان، المطور الذي قام ببناء جهاز توجيه المهام النموذجية لمنصة Hermes Agent باستخدام DeepSWE كإشارة مرجعية، علنًا لإصدار K2.7-Code وتحدى Moonshot AI بشكل مباشر استنادًا إلى معايير محددة.

“مع كل الاحترام الواجب، يقوم كل نموذج بتحسين الدرجات المكونة من رقمين في مجموعة الاختبارات الخاصة به.” كتب بالاسوبرامانيان على X.

وأشار إلى أن K2.6 سجل 24% في DeepSWE، متعادلًا مع GPT-5.4-mini، وسأل عما إذا كانت Moonshot AI سترسل K2.7-Code إلى نفس المعيار.

قال بالاسوبرامانيان إن الأمر استغرق 13 جولة من المراجعة لجمع البيانات المعيارية الكافية لجهاز التوجيه الخاص به، وأنه سيمرر مهام الترميز إلى K2.7-Code إذا صمدت النتائج المستقلة.

ماذا يعني هذا بالنسبة للشركات

الزيادة في أداء الرمز المميز قابلة للاستخدام على الفور. يمكن للفرق التي تستخدم K2.6 في الإنتاج تبادل كود K2.7 عبر واجهة برمجة التطبيقات المتوافقة مع OpenAI وتوقع تكاليف استدلال أقل في سير عمل الوكيل دون تغيير البنية. إن التخفيض بنسبة 30% في رموز التفكير هو رقم Moonshot، لكن مسار التكامل منخفض المخاطر بدرجة كافية بحيث يمكنك اختباره على أعباء العمل الخاصة بك قبل الالتزام.

والسؤال العملي هو ما إذا كانت هذه الزيادة في الكفاءة لها تأثير على تقسيم المهام داخل الفريق. يعد تشغيل كود K2.7 مقابل الأحمال الخاصة بك قبل ضبط أوزان البوابة مسارًا منخفض المخاطر لاكتشاف ذلك.

رابط المصدر