يتنافس معهد Allen Institute for AI مع Google وMeta وOpenAI من خلال نموذج تحليل الفيديو مفتوح المصدر

يظهر مقطع فيديو تجريبي من Ai2 أن مولمو يتتبع كرة معينة في فيديو القطة هذا، حتى عندما تتحرك خارج الإطار. (معهد ألين لفيديو الذكاء الاصطناعي)

كم عدد طيور البطريق الموجودة في فيديو الحياة البرية هذا؟ هل يمكنك تتبع الكرة البرتقالية في فيديو القطة؟ ما هي الفرق التي تلعب ومن سجل؟ أعطني تعليمات خطوة بخطوة من فيديو الطبخ هذا؟

هذه أمثلة على الأسئلة التي يمكن طرحها الفم 2عائلة جديدة من نماذج رؤية الذكاء الاصطناعي مفتوحة المصدر من معهد Allen للذكاء الاصطناعي (AI2) يمكنها مشاهدة مقاطع الفيديو وتتبعها وتحليلها والإجابة على الأسئلة المتعلقة بها – لا تصف فقط ما يحدث، ولكن أيضًا أين ومتى يحدث.

يستشهد AI2 باختبارات قياس الأداء التي توضح تفوق Molmo 2 على النماذج مفتوحة المصدر في تحليل مقاطع الفيديو القصيرة وتتبعها، وتجاوز الأنظمة المغلقة مثل Google Gemini 3 في تتبع الفيديو، بينما يقترب من أدائها في مهام الصور والفيديو الأخرى.

في سلسلة حديثة من العروض التوضيحية للصحفيين في مكاتب AI2 في سياتل، أظهر الباحثون كيف يمكن لـ Molmo 2 تحليل مقاطع فيديو قصيرة مختلفة بعدة طرق.

  • في مقطع فيديو لكرة القدم، سأل الباحثون عن الخطأ الدفاعي الذي أدى إلى تسجيل هدف. قام النموذج بتحليل التسلسل وأشار إلى الفشل في إبعاد الكرة بشكل فعال.
  • وفي مقطع بيسبول، تعرف الذكاء الاصطناعي على الفريقين (Angels and Mariners)، اللاعب الذي سجل (#55)، وأوضح كيف تعرف على الفريق المضيف من خلال قراءة الزي الرسمي والعلامة التجارية للملعب.
  • أثناء مشاهدة مقطع فيديو للطهي، أعادت العارضة وصفة منظمة تحتوي على مكونات وتعليمات خطوة بخطوة، بما في ذلك الوقت المستغرق من النص الذي يظهر على الشاشة.
  • عندما طُلب من النموذج حساب عدد الشقلبات التي قام بها الراقص، لم يقل النموذج “خمسة” فحسب، بل أعاد الطابع الزمني وإحداثيات البكسل لكل واحدة.
  • في العرض التوضيحي للتتبع، اتبع النموذج أربعة طيور البطريق أثناء تحركها حول الإطار، مع الحفاظ على معرف ثابت لكل طائر حتى عندما يكون هناك تداخل.
  • عندما طُلب من النموذج “تتبع السيارة التي تجاوزت السيارة رقم 13 في النهاية”، شاهد النموذج أولاً مقطع السباق بأكمله، وفهم الاستعلام، ثم عاد وحدد السيارة الصحيحة. لقد تتبعت السيارات التي دخلت وخرجت من الإطار.

عام كبير لـ Ai2

يمثل Molmo 2، الذي تم الإعلان عنه صباح الثلاثاء، عامًا من المعالم الرئيسية للمنظمة غير الربحية التي يقع مقرها في سياتل، والتي اكتسبت أتباعًا مخلصين في الدوائر التجارية والعلمية من خلال بناء أنظمة ذكاء اصطناعي مفتوحة تمامًا. ويتناقض نهجها بشكل حاد مع الأساليب المغلقة أو المفتوحة جزئيًا لعمالقة الصناعة مثل OpenAI، وGoogle، وMicrosoft، وMeta.

أسسها المؤسس المشارك الراحل لشركة Microsoft بول ألين في عام 2014، وحصلت Ai2 على 152 مليون دولار هذا العام من NSF وNvidia، ودخلت في شراكة مع مبادرة أبحاث السرطان التي يقودها فريد هاتش من سياتل، وأصدرت Olmo 3، وهو نموذج نصي ينافس Meta وDeepSeq وغيرهما.

شهدت AI2 أكثر من 21 مليون عملية تنزيل لنماذجها هذا العام وما يقرب من 3 مليارات استفسار على نظامها. علي فرهاديخلال مؤتمر صحفي الأسبوع الماضي في المقر الجديد للمعهد على الشاطئ الشمالي لبحيرة يونيون في سياتل، قال الرئيس التنفيذي لشركة AI2.

علي فرهادي، الرئيس التنفيذي لشركة AI2. (صورة ملف GeekWire/تود بيشوب)

باعتبارها مؤسسة غير ربحية، لا تحاول Ai2 التنافس تجاريًا مع عمالقة التكنولوجيا – فهدفها هو تطوير أحدث ما توصلت إليه التكنولوجيا وإتاحة هذه التطورات مجانًا.

أصدر المعهد نماذج مفتوحة للنص (OLMO)، والصور (MOLMO الأصلي)، والآن الفيديو – والتي يصفونها بأنها نموذج موحد يأخذ في الاعتبار جميع الطرائق.

وقال فرهادي: “نحن في الأساس نبني نماذج قادرة على المنافسة مع أفضل الأشياء المتوفرة، ولكن بطريقة منفتحة تمامًا، لمختلف الوسائط والمواقف”.

وبصرف النظر عن مولمو 2، صدر Ai2 يوم الاثنين بولمونموذج نص تجريبي يعالج اللغة على مستوى الأحرف بدلاً من أجزاء الكلمة – وهو تغيير تقني يعمل على تحسين التهجئة والكلمات النادرة والتعامل مع النص متعدد اللغات.

ملحق في تحليل الفيديو

مع إصدار Molmo 2 مؤخرًا، أصبح التركيز على الفيديو. للتوضيح: نموذج تحليل الفيديو، لا ينتج فيديو – فكر في فهم اللقطات بدلاً من إنشائها.

يمكن لـ Molmo الأصلي، الذي تم إصداره في سبتمبر الماضي، تحليل الصور الثابتة بدقة تضاهي المنافسين مغلقي المصدر. لقد قدمت إمكانية “التأشير” التي تتيح لها تحديد كائنات معينة داخل الإطار. يقدم Molmo 2 نفس النهج في فهم الفيديو والصور المتعددة.

هذا المفهوم ليس جديدا. يمكن لـ Google Gemini وGPT-4o من OpenAI وMeta’s Perception LM معالجة الفيديو. ولكن تماشيًا مع مهمة AI2 الأوسع باعتبارها مؤسسة غير ربحية، فإن Molmo2 مفتوحة تمامًا، حيث يتم نشر أوزان النماذج وكود التدريب وبيانات التدريب علنًا.

ويختلف هذا عن نموذج “الطبيب البيطري المفتوح” الذي يُطلق المنتج النهائي ولكن ليس الوصفة الأصلية، ويتناقض بشكل حاد مع الأنظمة المغلقة في Google وOpenAI وغيرهما.

التمييز ليس مجرد نظرية أكاديمية. ويعني نهج AI2 أن المطورين يمكنهم استنتاج سلوك النموذج من بيانات التدريب الخاصة به، وتخصيصه لاستخدامات محددة، وتجنب الانغلاق على النظام البيئي للبائع.

يؤكد Ai2 أيضًا على الكفاءة. على سبيل المثال، تم تدريب Meta’s Perception LM على 72.5 مليون مقطع فيديو. وبالاعتماد على التعليقات التوضيحية البشرية عالية الجودة، تم استخدام Molmo2 حوالي 9 ملايين مرة.

تدعي Ai2 أن النتيجة هي نموذج أصغر وأكثر كفاءة يتفوق على نموذجه الأكبر بكثير من العام الماضي، ويقترب من مطابقة أنظمة Google وOpenAI التجارية مع كونه بسيطًا بما يكفي للتشغيل على نفس الجهاز.

عندما قدمت Molmo الأصلية إمكانية التوجيه في العام الماضي – مما سمح للنماذج بتحديد كائنات معينة في الصورة – تبنت النماذج المنافسة هذه الميزة على الفور.

وقال: “نحن نعلم أنهم اعتمدوا بياناتنا لأنهم أدوا بنفس جودة أداءنا”. رانجاي كريشنامن يقود فريق رؤية الكمبيوتر في Ai2. كريشنا هو أيضًا أستاذ مساعد في جامعة واشنطن، وقد عمل أيضًا العديد من طلاب الدراسات العليا لديه في المشروع.

يضع فرهادي الديناميكيات التنافسية بشكل مختلف عن الآخرين في الصناعة.

“إذا كنت تستخدم مصدرًا مفتوحًا حقيقيًا، فسوف أغير الصياغة بالفعل مسابقة ل تعاونقال: لأنه لا داعي للمنافسة. كل شيء هناك. لا تحتاج إلى إجراء هندسة عكسية. ليس عليك أن تفعل ذلك مرة أخرى. فقط أمسك بها، وابني عليها، وافعل الشيء التالي. ونحن نحب ذلك عندما يفعل الناس ذلك.

عمل قيد التقدم

وفي الوقت نفسه، تواجه Molmo 2 بعض العقبات الصارخة. القدرة على التتبع – متابعة كائن عبر جميع الإطارات – تصل حاليًا إلى حوالي 10 عناصر. اطلب منه أن يتتبع حشدًا من الناس أو طريقًا سريعًا مزدحمًا، ولن يتمكن النموذج من القيام بذلك.

وقال كريشنا: “هذه قدرة جديدة للغاية، وهي تجريبية للغاية لدرجة أننا بدأنا بها على نطاق صغير للغاية”. “ليس لها أي قيود فنية، فهي تحتاج فقط إلى المزيد من البيانات، والمزيد من الأمثلة على المشاهد المزدحمة حقًا.”

ولا يزال الفيديو الطويل يمثل تحديًا أيضًا. يؤدي النموذج أداءً جيدًا في المقاطع القصيرة، لكن تحليل اللقطات الأطول يتطلب حسابات لا يرغب Ai2 في إنفاقها بعد. في Playgrounds، التي يتم إطلاقها مع Molmo 2، تقتصر مقاطع الفيديو التي تم تحميلها على 15 ثانية.

وعلى عكس بعض الأنظمة التجارية، لا يقوم Molmo 2 بمعالجة بث الفيديو المباشر. ويقوم بتحليل التسجيلات بعد وقوعها. وقال كريشنا إن الفريق يستكشف إمكانيات البث لتطبيقات مثل الروبوتات، حيث يحتاج النموذج إلى الاستجابة للملاحظات في الوقت الفعلي، لكن العمل لا يزال أوليًا.

وقال كريشنا: “بمرور الوقت، توصل الناس إلى طرق لمعالجة الفيديو وبثه”. “هذه هي الاتجاهات التي ندرسها للمضي قدمًا.”

Molmo 2 متاح اعتبارًا من اليوم على Hugging Face و ملعب Ai2,

رابط المصدر

ترك الرد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا