جوجل تكشف عن نموذج Gemini Omni للذكاء الاصطناعي من نظير إلى نظير: ما تحتاج الشركات إلى معرفته

على الرغم من أنه كان صحيحا اكتشفه بالفعل أسابيع من المستخدمين الجريئين للذكاء الاصطناعي المتقدم قبل جوجل نموذج جيميني أومني الجديد تم طرحه رسميًا لأول مرة اليوم في مؤتمر مطوري I/O السنوي في ماونتن فيو، كاليفورنيا، وهو يضع نموذجًا جديدًا تمامًا في سوق الذكاء الاصطناعي والتكنولوجيا الأوسع.

وذلك لأن “أومني” (من اللاتينية الجميع – كما تشير البادئة “كل شيء”، فهو أول نموذج أصلي متعدد الوسائط من Google، أو “نموذج يمكنه إنشاء أي شيء من أي مدخلات – بدءًا من الفيديو”.

هذا النموذج هو محاولة جوجل لدمج مجموعتها التوليدية متعددة الوسائط – تحويل النص إلى صورة، ومن صورة إلى فيديو، ومن فيديو إلى فيديو، وتوليد الصوت – في نموذج أساسي واحد بسطح تحرير واحد.

السؤال الكبير الذي يطرحه قادة الأعمال هو: هل يجب عليك تحويل أي من مجموعات الذكاء الاصطناعي الخاصة بك إلى Gemini Omni الآن؟

لسوء الحظ، الحقيقة هي أنك قد لا تتمكن من القيام بذلك بعد – النموذج متاح فقط للمستخدمين الفرديين من خلال خطط اشتراك Google AI، بدءًا من خطة “AI Plus” بسعر 20 دولارًا لكل مستخدم شهريًا. ويمكن الوصول إليه حاليا على الموقع جانب الجوزاء وتطبيقات الهاتف المحمول والويب من جوجل تدفق مجموعة تحرير الصور والفيديو بالذكاء الاصطناعي السراويل القصيرة على يوتيوب.

وبينما تقول الشركة إنها ستكون متاحة في النهاية عبر واجهة برمجة التطبيقات (API) التي تعتمد عليها العديد من المؤسسات لتلبية احتياجات الذكاء الاصطناعي الخاصة بها، إلا أنها ليست جاهزة بعد.

بعيدًا، لم تصدر Google أيضًا أي معايير عامة لـ Gemini Omni (حتى الآن). ومع ذلك، فإن المنظمات الخارجية ستختبرها بلا شك في مختلف المهام ومقاييس الجودة التي أبلغ عنها المستخدمون. ومع ذلك، في غضون ذلك، تظل جودتها وسرعتها ذاتية إلى حد ما.

ومع ذلك، نظرًا للإمكانيات والتحرير الأسرع الذي يوفره نموذج Omni الجديد، فمن المحتمل أن يفكر أعضاء فريقك بجدية في التبديل إلى هذا النموذج، خاصة إذا كانوا يعملون على إنشاء تصورات للرسوم البيانية الفنية، ومواد التسويق والاتصالات، والدورات التدريبية والتعليمية للشركات، ومواد المبيعات، وأي شيء يتطلب التصور بشكل أساسي.

ما هو بالضبط أومني

Omni هو الفصل التالي في العمل الذي أدى إلى Nano Banana، وهو نموذج لإنشاء الصور وتحريرها أطلقته Google قبل عام تقريبًا.

النموذج الأول في هذه العائلة، Gemini Omni Flash يقبل أي مجموعة من النصوص والصور والصوت والفيديو كمدخل وينتج مخرجات عالية الجودة في نفس الأوضاع – كل ذلك من نموذج واحد، وليس من مجموعة من الأنظمة المتخصصة.

تقول Google إن النموذج “متعدد الوسائط في الأصل من الألف إلى الياء”، وهو أمر أقل أهمية كنسخة تسويقية من كونه مطالبة معمارية: يمكن للنموذج الموحد أن يستوعب طرائق مختلفة في نفس التدفق، وهو ما يُترجم بشكل عام إلى تغييرات أكثر اتساقًا، وعدد أقل من عناصر خطوط الأنابيب، وسطح واجهة برمجة التطبيقات (API) أكثر نظافة للمطورين.

بدأت OpenAI هذا الاتجاه في مايو 2024 بإصدار GPT-4o، وهو أول نموذج أصلي لها “omni”، والذي تم تدريبه أيضًا من الألف إلى الياء ليكون قادرًا على تحليل وإنشاء العديد من أنواع المحتوى المختلفة، من النص إلى التعليمات البرمجية والصور والصوت. ومع ذلك، فهو لم يدعم إنشاء الفيديو وتم إهمال النموذج في النهاية بعد تقارير الثناء وحتى المستخدمين تتطلب OpenAI الاحتفاظ بهذا بعد إقامة علاقة شبه اجتماعية معه.

هل هناك خطر من أن يكتسب Gemini Omni معجبين مخلصين بنفس القدر؟ هذا يبقى أن نرى.

أحد الاختلافات الكبيرة هو أن نمط التفاعل الرئيسي للعنوان هو تحرير الفيديو التحادثي. كل تعليمات “تعتمد على الأخيرة”، ويتم الاحتفاظ بالتعليمات الموجودة عبر الجولات اللاحقة، لذلك يتطور الفيديو باستمرار عبر تكرارات المستخدم.

تتضمن الأمثلة العملية التي أبرزتها Google تغيير العالم داخل مقطع ما، وإعادة تصور الحركة أو زاوية الكاميرا، وتحسين التسلسل عبر دورات متعددة، وإنشاء محتوى على شكل شرح من مطالبات قصيرة.

تؤكد جوجل أيضًا على تحسين الفيزياء – الجاذبية والطاقة الحركية وديناميكيات السوائل – وهو نوع التفاصيل التي تميز “يشبه فيديو الذكاء الاصطناعي” عن “يبدو وكأنه لقطات”.

التنفيذ والسعر وسؤال API

أول شيء يجب على قادة المؤسسات قراءته بعناية هو خطة التنفيذ. سيكون Omni Flash متاحًا اليوم على تطبيق Gemini للمشتركين الأمريكيين في مستويات AI Plus وAI Pro وAI Ultra – بما في ذلك خطة AI Ultra الجديدة بقيمة 100 دولار شهريًا التي أعلنت عنها Google في نفس الحدث.

تقول Google إنها ستكون متاحة للمطورين عبر Vertex AI APIs “في الأسابيع المقبلة”. هذه الفجوة كبيرة. وإلى أن تصبح واجهة Vertex API متاحة على نطاق واسع، فإن Omni تعتبر أداة فعالة للمستهلكين والمستهلكين.

يجب على الشركات التجريبية التي تتجاوز التجارب القائمة على مقاعد البدلاء انتظار واجهة برمجة التطبيقات (API)، لأن هذا هو المكان الذي تنطبق فيه اتفاقيات مستوى الخدمة الخاصة بالمؤسسة والتزامات معالجة البيانات، ولأن الفيديو التوليدي على مستوى الإنتاج بدون واجهة برمجة ليس هو الحل.

سيحدد سعره لكل مليون رمز مميز عبر واجهة برمجة التطبيقات (على الأرجح) أيضًا مدى صلاحيته كمنتج مؤسسي يتجاوز إنتاج الأفلام/التلفزيون/الترفيه والإنتاج الفني.

بالنسبة لصناع القرار الذين يفكرون في اقتصاديات الفضاء في هذه الأثناء، تم تصميم طبقة AI Ultra الجديدة خصيصًا للمطورين وقادة التكنولوجيا والعاملين في مجال المعرفة والمبدعين المتقدمين، مع أولوية الوصول إلى Google Antigravity وحدود استخدام أعلى ومجموعة وصول Omni Flash.

بالنسبة للفرق الإبداعية الصغيرة ذات المواعيد النهائية الضيقة، قد تكون هذه هي الطريقة الأسرع لتقييم النموذج قبل وصول واجهة برمجة التطبيقات.

حالات استخدام المؤسسة ذات الأهمية حقًا

من السهل استخدام “الفيديو التسويقي” بشكل افتراضي كحالة استخدام، ولكن عرض القيمة المؤسسية لشركة Omni يكون أوسع إذا كنت تفكر فيه كمحرك فيديو ووسائط قابل للبرمجة بدلاً من تطبيق إبداعي:

  • المبيعات والتسويق: إنشاء سريع للإعلانات المتنوعة والإبداعات المحلية وعروض المنتجات دون الحاجة إلى دورات وكالة لكل مورد.

  • التواصل الداخلي والتعلم والتطوير (L&D): مقاطع فيديو توضيحية ووحدات تمهيدية وأدلة قواعد تم تطويرها بواسطة غير متخصصين.

  • دعم العملاء والوثائق: تفسيرات مرئية ديناميكية تعتمد على الاستعلام مرفقة بمقالات المساعدة.

  • المنتج والهندسة: تصور المحاكاة وتعليمات واجهة المستخدم ومقاطع الفيديو المفاهيمية لمراجعة المواصفات.

  • العمليات الميدانية: مقاطع تعليمية قصيرة خاصة بحالة معينة، يتم إنشاؤها حسب الطلب.

ما يتغير في Omni مقارنة بأدوات الجيل السابق هو التوحيد القياسي. قامت العديد من المؤسسات بدمج مسارات العمل بدءًا من نماذج النص إلى الصورة، ومن الصورة إلى الفيديو، ومزامنة الشفاه والصوت، ولكل منها عقد خاص بها، وفواتير، ومسار بيانات. نموذج واحد مدعوم من Vertex AI يجمع عمليات الشراء وإمكانية المراقبة في مكان واحد – على افتراض أن واجهة برمجة التطبيقات النهائية ستوفر إنتاجية ووقت استجابة على مستوى الإنتاج.

الجزء الأكثر استخفافًا هو قصة الإدارة

بالنسبة لمديري تكنولوجيا المعلومات ومديري تكنولوجيا المعلومات، فإن الجزء الأكثر أهمية في إعلان Google ليس البطاقة النموذجية؛ فهو أصل وأمن المحتوى المنقول معه.

يتم وضع علامة مائية رقمية على كل مقطع فيديو تم إنشاؤه بواسطة Omni باستخدام Google SynthID. تعمل Google على توسيع بيانات اعتماد محتوى C2PA عبر أدواتها التوليدية وإطلاق واجهة برمجة تطبيقات AI Content Detection على منصة الوكيل الخاصة بها، والتي تمكن الشركات من تحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من كل من Google والنماذج الشائعة الأخرى.

تشير عمليات تكامل الشركاء التي تم الإعلان عنها في نفس الحدث – بما في ذلك Shutterstock وAvid (في Pro Tools) وموقع إخباري رئيسي واحد على الأقل – إلى الاتجاه الذي يتجه إليه المعيار.

بالنسبة للمؤسسات، يعد هذا أمرًا مهمًا، من بين أمور أخرى: ثلاث طرق محددة:

  1. يعطي الفرق القانونية والامتثال مسار تدقيق يمكن الدفاع عنه للوسائط التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

  2. وهذا يتيح فرق سلامة العلامة التجارية اكتشاف المواد التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تدخل خطوط أنابيب محتوى الطرف الثالث.

  3. وهذا يوفر استجابة يمكن الدفاع عنها للمنظمين في الولايات القضائية مثل الاتحاد الأوروبيالتي تشدد اللوائح المتعلقة بالكشف عن المعلومات في الوسائط الاصطناعية.

هناك أيضًا برنامج “Personal Avatars” الذي يسمح للمبدعين بتسجيل مقاطع فيديو قصيرة للسماح باستخدام أصواتهم وأمثالهم في المحتوى الذي تم إنشاؤه، وهو ما أظهره قادة Google وموظفوها اليوم في منشورات I / O التي تعرض أشكالهم التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

وهذا يضعها في منافسة مباشرة مع Synthesia، وهي شركة بريطانية تعمل بالذكاء الاصطناعي وتركز في المقام الأول على مقاطع الفيديو الآمنة للمؤسسات والصور الرمزية التي تعمل بالذكاء الاصطناعي.

بالنسبة للشركات التي تفكر في مقاطع الفيديو التنفيذية أو الصور الرمزية التدريبية أو المحتوى الذي يضم المدافعين عن العلامات التجارية، يعد نموذج الموافقة المقدم هنا نقطة انطلاق جيدة، ولكن ستحتاج سياسات إدارة العقود والحقوق إلى التوسع لاستيعابها.

مخاطر تستحق التنبيه

إن المخاطر الرئيسية المرتبطة بـ Omni معروفة، ولكن من المفيد أن نتذكرها.

المشهد التنافسي مزدحم بنموذج Synthesia المذكور سابقًا، ونموذج Seedance الراسخ من ByteDance، الشركة الأم لـ TikTok، ونماذج Kling AI التابعة لشركة Kuaishou Technology، ومجال المصدر المفتوح سريع النمو – وكلها تتنافس على نفس سير العمل.

يعد الاعتماد على نموذج فيديو واحد مشكلة خطيرة عندما تستمر جودة الإخراج في الارتفاع من ربع إلى ربع.

لم يتم إثبات زمن الوصول وتكاليف إنشاء الفيديو على نطاق الإنتاج خارج العروض التوضيحية الخاضعة للرقابة.

بالإضافة إلى ذلك، فإن الوضع القانوني لبيانات التدريب الخاصة بالفيديو التوليدي غير منظم في العديد من الولايات القضائية؛ يجب أن تحتاج المؤسسات إلى لغة أمان واضحة قبل نشر مقاطع الفيديو التي يتم إنشاؤها على القنوات التي تواجه العملاء.

بالإضافة إلى ذلك، مساهم VentureBeat و مستخدم YouTube للذكاء الاصطناعي سام ويتفين, الرئيس التنفيذي لمزود التعلم الآلي للمؤسسات Red Dragon AIحصلت على وصول مبكر إلى Gemini Omni وذكرت أن قيود المحتوى (التي يعتبرها البعض رقابة) صارمة للغاية ومن المحتمل أن تحد وتعيق أي حالات استخدام محتملة ترغب الشركة في متابعتها.

أفكار للشركات التي تفكر في التبني

إن Omni تستحق القيادة – ولكن ما يهم هو هيكل الطيار.

بالنسبة لمعظم المؤسسات، فإن الخطوة الصحيحة خلال 30 إلى 60 يومًا القادمة هي تمويل تجربة صغيرة تم التحقق من صحتها باستخدام مقعد أو مقعدين من مقاعد AI Ultra في التسويق أو العلوم والتطوير، بينما تستخدم فرق النظام الأساسي والأمن هذا المدرج لإعداد Vertex AI API: تحديد متطلبات تخزين البيانات، وتكوين التحقق من SynthID وC2PA في مسار المحتوى، ومواءمة واجهة برمجة تطبيقات اكتشاف محتوى الذكاء الاصطناعي مع أدوات إدارة الوسائط الحالية.

تعامل مع نشر المستهلك كمعاينة لتجربة المستخدم، وليس كخارطة طريق للإنتاج. عندما تصل واجهة برمجة التطبيقات (API)، ستكون المؤسسات التي قامت بالفعل بالأعمال الإدارية هي التي ستجلب Omni إلى سير العمل الحقيقي، بينما يستمر الجميع في تطوير السياسة.

إن Omni في حد ذاته ليس سببًا لتغيير استراتيجية الذكاء الاصطناعي لمؤسستك. ومع ذلك، فهي إشارة قوية على أن المكدس التوليدي متعدد الوسائط يتم دمجه في نماذج واحدة لها أصولها الخاصة – وهذا تغيير يجب على صناع القرار الفني التخطيط له الآن.

رابط المصدر