يقوم Google Gemini Omni بتحويل الصور والصوت والنص إلى فيديو – وهذه مجرد البداية

عندما أطلقت جوجل توأم منذ ثلاث سنواتكان الهدف هو بناء نموذج لغة كبير متعدد الوسائط – شبكة عصبية واحدة مدربة على النص والصورة والصوت والفيديو وقادرة على إنشاء محتوى بأي من هذه التنسيقات.

اليوم في مؤتمر مطوري Google I/O، اتخذت الشركة خطوة ملموسة في هذا الاتجاه من خلال الكشف عن Gemini Omni، وهي عائلة جديدة من النماذج متعددة الوسائط التي يقول الرئيس التنفيذي لشركة Google Sundar Pichai إنها ستكون قادرة على “إنشاء أي شيء من أي مدخلات”.

سيبدأ Omni بالفيديو. يمكن للمستخدمين الآن دمج الصور والصوت والفيديو والنص، بدلاً من مجرد الجمع بين هذه المدخلات، يقوم Omni بترشيدها جميعًا لإنتاج نتيجة متسقة. والنتيجة هي مقاطع فيديو عالية الجودة تعكس فهمًا للفيزياء والثقافة والتاريخ والعلوم.

يتيح Omni أيضًا للمستخدمين تحرير الصور باستخدام أوامر نصية بدلاً من برامج التحرير المعقدة المشابهة لبرنامج Nano Banana من Google.

لدى جوجل بالفعل نموذج فيديو مخصص، Veo، الذي يسمح للمستخدمين بتحويل النصوص والصور إلى مقاطع فيديو وحتى استهداف الصور الرمزية وتخصيصها. لكن مديرة إدارة المنتجات في Google DeepMind، نيكول بريشتوفا، تقول إن إصدار اليوم هو أكثر من مجرد تحديث لبرنامج Veo: “إنها خطوة أخرى نحو الجمع بين ذكاء Gemini وإمكانيات العرض لنماذج الوسائط المتعددة لدينا”.

إليك مثال قدمه كوراي كافوكوغلو، كبير تقنيي DeepMind، للصحفيين خلال المؤتمر الصحفي يوم الاثنين: عندما تلقى Omni مطالبة بسيطة مثل “شرح طيني حول طي البروتين”، سرعان ما أنشأ مقطع فيديو لشرح بفاصل زمني مع تعليق صوتي يقول: “تبدأ البروتينات كسلاسل من الأحماض الأمينية. وهي تطوى في أنماط مثل حلزون ألفا وأجزاء مسطحة تسمى صفائح بيتا، مما يخلق شكلًا مثاليًا ثلاثي الأبعاد.”

تعتبر رؤية Omni طويلة المدى أوسع نطاقًا وتتضمن استخدام النموذج لأغراض مثل إنشاء صور من الصوت أو الصوت من الفيديو.

وقال بيتشاي خلال المؤتمر الصحفي: “عندما أعلنا عن جيميني لأول مرة، كان أول نموذج ذكاء اصطناعي متعدد الوسائط لدينا”. “كنا نعلم أن تدريبه باستخدام مزيج من النصوص والأكواد والصوت والصور والفيديو من شأنه أن يمنحه فهمًا أعمق للعالم. ومع النماذج العالمية، ينتقل الذكاء الاصطناعي من التنبؤ بالنص إلى محاكاة الواقع. يعد Gemini Omni خطوة أخرى في هذا الاتجاه.”

وكجزء من هذا الإصدار، سيتمكن المستخدمون أيضًا من إنشاء مقاطع فيديو باستخدام الصور الرمزية الرقمية الخاصة بهم – وهو أمر شاعه OpenAI مع تطبيق Sora الذي لم يعد موجودًا الآن من Cameos. لمنع التزييف العميق، سيتعين على المستخدمين الخضوع لعملية مخصصة لإعداد المنتج تتضمن تسجيل أنفسهم وقول سلسلة من الأرقام، كما تقول بريشتوفا. ثم يتم حفظ الصورة الرمزية لاستخدامها في المستقبل.

بالإضافة إلى ذلك، ستتضمن جميع مقاطع الفيديو التي تم إنشاؤها باستخدام Omni العلامة المائية الرقمية SynthID من Google، والتي تتيح للمستخدمين التحقق من إنشاء مقاطع الفيديو باستخدام منتجات Gemini.

النموذج الأول في هذه العائلة هو Gemini Omni Flash، والذي سيتوفر اليوم على تطبيق Gemini وYouTube Shorts واستوديو AI Flow الإبداعي. سيكون Flash قادرًا على عرض 10 ثوانٍ من الفيديو، وهو ما قال عنه بريشتوف إنه ليس تقييدًا للنموذج، بل هو قرار يعتمد على الرغبة في إيصاله إلى المزيد من الأيدي وعلى توقع أن معظم المستخدمين لن يرغبوا بعد في إنشاء مقاطع فيديو أطول بكثير. ومع ذلك، يتم التخطيط لأفلام أطول في المستقبل القريب.

يبدو أن Google تعمل على الترويج لـ Omni Flash كأداة أكثر ملائمة للمستهلك. من أمثلة استخدامات الصور الرمزية الرقمية التي قدمتها بريشتوفا وجابي بارث مارون، مهندس الأبحاث في DeepMind، في مقابلة هاتفية مع TechCrunch، كانت شخصية: تسجيل فيديو للفوز بجائزة أو الطيران إلى القمر، أو إزالة أحد المارة من خلفية مقطع فيديو مسجل في إجازة.

وعبّر بارث مارون عن الأمر بشكل أكثر بساطة: “إنها مثل الميمات الشخصية”.

وقالت بريشتوفا: “لقد ركزنا بالتأكيد على تسهيل استخدام المستهلكين”. “لم تتمكن العديد من عارضات الفيديو من تجاوز هذا الانقسام بين المستهلكين، لذا فإن مهمتنا هي القيام بذلك.”

تأتي سهولة الاستخدام مع تحذير: أشار بريشتوفا وبارث مارون إلى أن مطالبات التحرير يجب أن تكون محددة للغاية، وإلا فإن Omni يخاطر بالإفراط في التحرير أو تغيير العناصر التي يريد المستخدم الاحتفاظ بها عن غير قصد – وهي مشكلة قد يواجهها مستخدمو Nano Banana.

اعتمادات الصورة:جوجل

على الرغم من أن Omni ستركز على المستهلكين في المستقبل المنظور، إلا أن المؤسسة والآثار الإبداعية لـ Omni واضحة، وستجعل Google Omni متاحًا عبر واجهة برمجة التطبيقات (API) في الأسابيع المقبلة. إن أداة إنشاء الصور الرمزية – وهي ميزة متوفرة في Shorts اليوم – هي شيء تتوقعه Google من منشئي المحتوى. ولكن على نطاق أوسع، يمكن أن يكون سير العمل الشامل ومتعدد الوسائط أمرًا بالغ الأهمية للمعلنين وصانعي الأفلام.

تقوم الشركة الناشئة Luma AI ببناء شيء مماثل، وهي أداة تعتمد على الوكيل يمكنها إنشاء حملة إعلانية كاملة بناءً على ملخص قصير وصورة المنتج، بناءً على نموذجها “الموحد”.

وقالت بريشتوفا: “نحن فخورون حقًا بقدرة النموذج على تقديم النص، وهو أمر مفيد حقًا للإعلان”. “إذا كنت ترغب في الحصول على منتج أو حتى شعار في مكان ما، فيجب أن يكون دقيقًا… نتوقع بالتأكيد أن يستخدم صانعو الأفلام وغيرهم من المبدعين هذا النموذج أيضًا.”

لمزيد من حالات الاستخدام الاحترافية، يعد نموذج Omni Pro أكثر ملاءمة ويجب أن يؤدي أداءً أفضل في جميع مهام Omni. لم تذكر جوجل بعد متى ستطلق الإصدار الاحترافي، لكن بريشتوفا قالت إن ذلك سيحدث عندما “نشعر وكأننا في مرحلة نشهد فيها تغييرًا تدريجيًا عن Flash”.

عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. وهذا لا يؤثر على استقلالنا التحريري.

رابط المصدر