يعد تشغيل الوكلاء الصوتيين مكلفًا ومرهقًا في التنسيق، ليس لأن النماذج لا يمكنها التعامل مع المحادثة، ولكن لأن حدود السياق أجبرت المؤسسات على إنشاء طبقات من إعادة تعيين الجلسة، وضغط الحالة، وإعادة البناء في كل عملية نشر. تهدف النماذج الصوتية الثلاثة الجديدة من OpenAI إلى تقليل هذا العبء وتغيير الطريقة التي يمكن للمهندسين من خلالها التفكير في بناء الصوت عبر مجموعة أكبر من الوكلاء.
تعمل كل من GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper على دمج الصوت في الوقت الفعلي في حزمة إدارة النموذج كبدائل تزامنية منفصلة – حيث يتم فصل تفكير المحادثة والترجمة والنسخ إلى مكونات متخصصة، بدلاً من دمجها في منتج صوتي واحد.
وذكرت الشركة في دخول بلوق أن Realtime-2 هو أول نموذج صوتي مزود بـ “استدلال من فئة GPT-5” يمكنه التعامل مع الطلبات الصعبة وضمان التدفق الطبيعي للمحادثة. يفهم Realtime-Translate أكثر من 70 لغة ويترجمها إلى 13 لغة أخرى بسرعة المتحدث، ويعد Realtime-Whisper نموذجًا جديدًا لتحويل الكلام إلى نص.
لم تعد هذه الإجراءات الثلاثة تتناسب مع مكدس أو نموذج واحد. يمكن أن يتعامل GPT-Realtime-2 تقنيًا مع النسخ، لكن OpenAI يوجه مهام منفصلة إلى نماذج متخصصة: Realtime-Translate للكلام متعدد اللغات وRealtime-Whisper للنسخ. يمكن للمؤسسات تعيين كل مهمة للنموذج المناسب، بدلاً من توجيه كل شيء من خلال نظام صوتي واحد شامل.
تتنافس نماذج OpenAI الجديدة مع نماذج Voxtral من Mistral، والتي تعمل أيضًا على فصل النسخ وحالات الاستخدام المؤسسي المستهدف.
ماذا يجب أن تفعل الشركات؟
تدرك المزيد والمزيد من المؤسسات قيمة الوكلاء الصوتيين الآن حيث يشعر المزيد من الأشخاص بالراحة في التحدث إلى وكيل الذكاء الاصطناعي، وبسبب ثروة البيانات التي تأتي من تفاعلات العملاء القائمة على الصوت.
ستحتاج المؤسسات التي تقوم بتقييم هذه النماذج إلى النظر في بنية التزامن، وليس فقط جودة النموذج – على وجه التحديد، ما إذا كان بإمكان مكدسها توجيه المهام الصوتية المنفصلة إلى النماذج المتخصصة وإدارة الحالة في نافذة سياق بحجم 128 كيلو بايت. الرموز.









