- أطلقت OpenAI ثلاثة نماذج جديدة للذكاء الاصطناعي (AI).
- يتم استخدامها لأداء المهام الصوتية في الوقت الفعلي: الاستدلال والترجمة والنسخ
- تم تصميم كل منها ليتم دمجها مع تطبيقات الذكاء الاصطناعي للمطورين
إذا كنت من مستخدمي ChatGPT العاديين، فقد تعلم أنه ليس عليك التفاعل مع روبوت الدردشة المدعم بالذكاء الاصطناعي (AI) فقط من خلال الرسائل النصية – يمكنه التحدث معك وقبول أوامرك الصوتية. الآن منشئ ChatGPT OpenAI أعلن ثلاثة نماذج صوتية جديدة تقول إنها “ستفتح فئة جديدة من التطبيقات الصوتية للمطورين”.
تم تصميم كل نموذج صوتي من الذكاء الاصطناعي لغرض مختلف، بما في ذلك التفكير العميق والترجمة والنسخ. إذا كنت تبحث عن نموذج صوتي بهذا الأسلوب، فإن الأمر يستحق المحاولة.
وفقًا لـ OpenAI، تشمل النماذج الجديدة ما يلي:
- “GPT‑Realtime‑2، هو أول نموذج صوتي لدينا مع منطق فئة GPT‑5 الذي يتعامل مع الطلبات الأكثر صعوبة ويدفع المحادثة للأمام بشكل طبيعي.
- “GPT-Realtime-Translate، نموذج ترجمة مباشر جديد يترجم الكلام من أكثر من 70 لغة إدخال إلى 13 لغة إخراج، لمواكبة المتحدث.
- “GPT-Realtime-Whisper، طريقة جديدة لدفق الكلام إلى نص يقوم بنسخ الكلام مباشرة أثناء تحدث المتحدث.”
يوضح منشور OpenAI الإخباري أن الشركة شهدت أن المطورين يستخدمون نماذج صوتية للذكاء الاصطناعي بثلاث طرق مختلفة: مطالبة الذكاء الاصطناعي بأداء مهمة؛ من خلال مطالبة الذكاء الاصطناعي بشرح الموقف للمستخدم (مثل تأخير السفر)؛ ومن خلال المحادثات باللغة المحلية للمستخدم.
هذه هي حالات الاستخدام التي تسعى OpenAI إلى حلها من خلال نماذجها الصوتية الجديدة. كل منها مخصص للمطورين لاستخدامها في تطبيقاتهم الخاصة، وكلها متاحة كجزء من Realtime API الخاص بـ OpenAI. ستتكلف GPT-Realtime-2 32 دولارًا لكل مليون رمز إدخال و64 دولارًا لكل مليون رمز إخراج. تبلغ تكلفة GPT-Realtime-Translate 0.034 دولارًا أمريكيًا للدقيقة وتكلفة GPT-Realtime-Whisper 0.017 دولارًا أمريكيًا للدقيقة.
إذا كنت تبحث عن نموذج ذكاء اصطناعي يمكنه التفكير بعمق والتكيف مع تدفقات المحادثة، فإن OpenAI تقول إن خيار GPT-Realtime-2 الجديد يناسبك. يمكن للمطورين استخدامه للتشاور مع مصادر متعددة في وقت واحد، وضبط لهجته بناءً على مدخلات المستخدم، والوصول إلى مستويات أكثر تقدمًا من الاستدلال، وتحليل المصطلحات المتخصصة (مثل الأسماء الصحيحة والتعبيرات المستخدمة في الرعاية الصحية والتصنيع).
من ناحية أخرى، يمكن لتطبيقات الترجمة استخدام GPT-Realtime-Translate لتحويل الكلام في الوقت الفعلي. سيتمكن المستخدمون من التحدث بلغتهم الخاصة وترجمتها ونسخها على الفور. يعمل هذا النموذج مع أكثر من 70 لغة إدخال و13 لغة إخراج.
وإذا كنت تريد أن يكون النسخ الصوتي سريعًا ودقيقًا، فإن GPT-Realtime-Whisper متاح. يعد هذا النموذج مفيدًا لإنشاء التسميات التوضيحية وملاحظات الاجتماعات والملخصات أثناء المكالمات، كما تدعي OpenAI، مما يعني أن “المنتجات الحية يمكن أن تظهر بشكل أسرع وأكثر استجابة وأكثر طبيعية”.
إذا كنت ترغب في تجربة أي من النماذج الجديدة، فهي متوفرة على OpenAI ملعب جانب. وإذا كنت تستخدم Codex، فقد أنشأت OpenAI مطالبة ستضيف GPT-Realtime-2 مباشرةً إلى إطار عمل ترميز الوكيل.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدرك المفضل لتلقي أخبار ومراجعات وآراء الخبراء حول قنواتك. تذكر أن تنقر على زر المتابعة!
وبالطبع يمكنك ذلك أيضًا اتبع TechRadar على TikTok لتلقي الأخبار والمراجعات ومقاطع الفيديو التي تفتح علبتها وتلقي تحديثات منتظمة منا واتساب أيضاً.
أفضل أجهزة الكمبيوتر المحمولة لكل ميزانية










