الرئيسية تكنولوجيا يجلب OpenAI استدلال فئة GPT-5 إلى الصوت في الوقت الفعلي ويغير ما...

تكنولوجيا

يجلب OpenAI استدلال فئة GPT-5 إلى الصوت في الوقت الفعلي ويغير ما يمكن لوكلاء الصوت تنسيقه فعليًا

بواسطة

8 مايو 2026

يعد تشغيل الوكلاء الصوتيين مكلفًا ومرهقًا في التنسيق، ليس لأن النماذج لا يمكنها التعامل مع المحادثة، ولكن لأن حدود السياق أجبرت المؤسسات على إنشاء طبقات من إعادة تعيين الجلسة، وضغط الحالة، وإعادة البناء في كل عملية نشر. تهدف النماذج الصوتية الثلاثة الجديدة من OpenAI إلى تقليل هذا العبء وتغيير الطريقة التي يمكن للمهندسين من خلالها التفكير في بناء الصوت عبر مجموعة أكبر من الوكلاء.

تعمل كل من GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper على دمج الصوت في الوقت الفعلي في حزمة إدارة النموذج كبدائل تزامنية منفصلة – حيث يتم فصل تفكير المحادثة والترجمة والنسخ إلى مكونات متخصصة، بدلاً من دمجها في منتج صوتي واحد.

وذكرت الشركة في دخول بلوق أن Realtime-2 هو أول نموذج صوتي مزود بـ “استدلال من فئة GPT-5” يمكنه التعامل مع الطلبات الصعبة وضمان التدفق الطبيعي للمحادثة. يفهم Realtime-Translate أكثر من 70 لغة ويترجمها إلى 13 لغة أخرى بسرعة المتحدث، ويعد Realtime-Whisper نموذجًا جديدًا لتحويل الكلام إلى نص.

لم تعد هذه الإجراءات الثلاثة تتناسب مع مكدس أو نموذج واحد. يمكن أن يتعامل GPT-Realtime-2 تقنيًا مع النسخ، لكن OpenAI يوجه مهام منفصلة إلى نماذج متخصصة: Realtime-Translate للكلام متعدد اللغات وRealtime-Whisper للنسخ. يمكن للمؤسسات تعيين كل مهمة للنموذج المناسب، بدلاً من توجيه كل شيء من خلال نظام صوتي واحد شامل.

تتنافس نماذج OpenAI الجديدة مع نماذج Voxtral من Mistral، والتي تعمل أيضًا على فصل النسخ وحالات الاستخدام المؤسسي المستهدف.

ماذا يجب أن تفعل الشركات؟

تدرك المزيد والمزيد من المؤسسات قيمة الوكلاء الصوتيين الآن حيث يشعر المزيد من الأشخاص بالراحة في التحدث إلى وكيل الذكاء الاصطناعي، وبسبب ثروة البيانات التي تأتي من تفاعلات العملاء القائمة على الصوت.

ستحتاج المؤسسات التي تقوم بتقييم هذه النماذج إلى النظر في بنية التزامن، وليس فقط جودة النموذج – على وجه التحديد، ما إذا كان بإمكان مكدسها توجيه المهام الصوتية المنفصلة إلى النماذج المتخصصة وإدارة الحالة في نافذة سياق بحجم 128 كيلو بايت. الرموز.

رابط المصدر

يجلب OpenAI استدلال فئة GPT-5 إلى الصوت في الوقت الفعلي ويغير ما يمكن لوكلاء الصوت تنسيقه فعليًا

ماذا يجب أن تفعل الشركات؟

آخر الأخبار

يمكن لميزة الأمان الجديدة في ChatGPT تحذير “جهة اتصال موثوقة” بشأن...

الأناشيد المناهضة للعمل، الصبي جورج والأغاني المثيرة للجدل: دليل لجميع أغاني...

يقول بروس ديكنسون إن التذاكر ذات الأسعار المعقولة تجعل عروض Iron...

NYT Strands نصائح وإجابات ليوم السبت 9 مايو (اللعبة رقم 797)

هل يمكن للذكاء الاصطناعي أن يساعد نوليوود في رواية قصة أفريقيا...

مقتل 3 من المتنزهين بسبب بركان في إندونيسيا

أصدرت الحكومة للتو سلسلة من ملفات الأجسام الطائرة المجهولة: أين الفضائيون؟

إغلاق أكبر مصفاة للنفط في ليبيا خلال الحرب أخبار الصراع

في مثل هذا اليوم من عام 1965، قادت فرقة رولينج ستونز...

أثارت الاحتجاجات في Park East Synagogue انتقادات من عمدة مدينة نيويورك...

فئة