يبدو مولد الفيديو الجديد متعدد الوسائط المزود بالذكاء الاصطناعي من Google VideoPoet مذهلاً

20 ديسمبر 2023 الساعة 3:34 مساءً

الائتمان: أبحاث جوجل

هل أنت مستعد لجلب المزيد من الوعي لعلامتك التجارية؟ فكر في أن تصبح راعيًا لجولة AI Impact Tour. تعرف على المزيد حول الفرص هنا.

فقط البارحة، انا سألت إذا حصلت Google على إصدار منتج للذكاء الاصطناعي من المحاولة الأولى. ضع في اعتبارك أنه تم طرح السؤال والإجابة عليه – على الأقل، وفقًا لأحدث الأبحاث.

هذا الأسبوع، أظهرت جوجل فيديوشاعر، نموذج لغة كبير جديد (LLM) مصمم لمجموعة متنوعة من مهام إنشاء الفيديو من فريق مكون من 31 باحثًا في Google Research.

إن حقيقة أن فريق أبحاث Google قام ببناء LLM لهذه المهام أمر جدير بالملاحظة في حد ذاته. كما يكتبون في المراجعة المسبقة ورقة ابحاث: “تستخدم معظم النماذج الحالية الأساليب القائمة على الانتشار والتي غالبًا ما تُعتبر الأفضل أداءً حاليًا في إنشاء الفيديو. تبدأ نماذج الفيديو هذه عادةً بنموذج صورة تم تدريبه مسبقًا، مثل Stable Diffusion، الذي ينتج صورًا عالية الدقة للإطارات الفردية، ثم يقوم بضبط النموذج لتحسين الاتساق الزمني عبر إطارات الفيديو.

على النقيض من ذلك، بدلاً من استخدام نموذج الانتشار القائم على الشعبية (و جدلي) نشر مستقر للصور/الفيديو مفتوح المصدر لتوليد الذكاء الاصطناعي، قرر فريق أبحاث Google استخدام LLM، وهو نوع مختلف من نموذج الذكاء الاصطناعي يعتمد على بنية المحولات، والذي يستخدم عادةً لإنشاء النص والتعليمات البرمجية، كما هو الحال في ChatGPT أو Claude 2 أو اللاما 2. ولكن بدلاً من تدريبه على إنتاج النصوص والتعليمات البرمجية، قام فريق أبحاث Google بتدريبه على إنشاء مقاطع فيديو.

حدث VB

جولة تأثير الذكاء الاصطناعي

الوصول إلى مخطط حوكمة الذكاء الاصطناعي – اطلب دعوة لحضور حدث 10 يناير.

يتعلم أكثر

كان التدريب المسبق هو المفتاح

لقد فعلوا ذلك من خلال “التدريب المسبق” المكثف لـ VideoPoet LLM على 270 مليون مقطع فيديو وأكثر من مليار زوج من النصوص والصور من “الإنترنت العام والمصادر الأخرى”، وعلى وجه التحديد، تحويل تلك البيانات إلى تضمينات نصية، ورموز مرئية ، والرموز الصوتية، التي كان نموذج الذكاء الاصطناعي “مشروطًا” عليها.

النتائج مذهلة جدًا، حتى بالمقارنة ببعض نماذج إنشاء الفيديو الحديثة التي تواجه المستهلك مثل المدرج و بيكا، السابق أ استثمار جوجل.

مقاطع أطول وذات جودة أعلى مع حركة أكثر اتساقًا

علاوة على ذلك، يشير فريق أبحاث Google إلى أن نهج مولد فيديو LLM الخاص بهم قد يسمح فعليًا بمقاطع أطول وبجودة أعلى، مما يزيل بعض القيود والمشكلات المتعلقة بأنظمة الذكاء الاصطناعي الحالية القائمة على توليد الفيديو، حيث تميل حركة الموضوعات في الفيديو إلى تنهار أو تتحول إلى خلل بعد بضعة إطارات فقط.

وكتب اثنان من أعضاء الفريق، دان كوندراتيوك وديفيد روس، في مقال: “أحد الاختناقات الحالية في إنتاج الفيديو هو القدرة على إنتاج حركات كبيرة متماسكة”. مشاركة مدونة أبحاث Google اعلان العمل. “في كثير من الحالات، حتى النماذج الرائدة الحالية إما تولد حركة صغيرة، أو عند إنتاج حركات أكبر، تظهر قطعًا أثرية ملحوظة.”

صورة GIF متحركة توضح كيف يمكن لـ VideoPoet AI من Google Research تحريك الصور الثابتة. الائتمان: أبحاث جوجل

لكن VideoPoet يمكنه توليد حركة أكبر وأكثر اتساقًا عبر مقاطع فيديو أطول مكونة من 16 إطارًا، بناءً على الأمثلة التي نشرها الباحثون عبر الإنترنت. كما أنه يسمح بنطاق أوسع من الإمكانات مباشرة من القفزة، بما في ذلك محاكاة حركات الكاميرا المختلفة، والأنماط المرئية والجمالية المختلفة، وحتى إنشاء صوت جديد لمطابقة مقطع فيديو معين. كما أنه يتعامل مع مجموعة من المدخلات بما في ذلك النصوص والصور ومقاطع الفيديو لتكون بمثابة المطالبات.

من خلال دمج كل إمكانيات إنشاء الفيديو هذه في LLM واحد، يلغي VideoPoet الحاجة إلى مكونات متعددة ومتخصصة، ويقدم حلاً سلسًا ومتكاملًا لإنشاء الفيديو.

في الواقع، فضل المشاهدون الذين شملهم استطلاع فريق أبحاث Google ذلك. عرض الباحثون مقاطع فيديو تم إنشاؤها بواسطة VideoPoet على عدد غير محدد من “المقيمين البشريين”، بالإضافة إلى مقاطع تم إنشاؤها بواسطة نماذج نشر إنشاء الفيديو Source-1، وVideoCrafter، وPhenaki، والتي تعرض مقطعين في وقت واحد جنبًا إلى جنب. قام المقيمون البشريون بتقييم مقاطع VideoPoet إلى حد كبير على أنها متفوقة في نظرهم.

كما تم تلخيصه في منشور مدونة Google Research: “في المتوسط، اختار الأشخاص 24-35% من الأمثلة من VideoPoet كالمطالبات التالية بشكل أفضل من النموذج المنافس مقابل 8-11% للنماذج المنافسة. كما فضل المقيمون أيضًا 41-54% من الأمثلة من VideoPoet للحصول على حركة أكثر إثارة للاهتمام مقارنة بـ 11-21% للنماذج الأخرى. يمكنك رؤية النتائج المعروضة بتنسيق شريطي أدناه أيضًا.

مصممة للفيديو العمودي

قامت Google Research بتصميم VideoPoet لإنتاج مقاطع فيديو في الاتجاه الرأسي افتراضيًا، أو “فيديو رأسي” يلبي سوق فيديو الهاتف المحمول الذي شاع بواسطة Snap وTikTok.

مثال على مقطع فيديو رأسي تم إنشاؤه بواسطة برنامج VideoPoet video Generation LLM التابع لأبحاث Google. الائتمان: أبحاث جوجل

وبالنظر إلى المستقبل، تتصور Google Research توسيع قدرات VideoPoet لدعم مهام الإنشاء “من أي إلى أي شخص”، مثل تحويل النص إلى صوت ومن الصوت إلى الفيديو، مما يزيد من توسيع حدود ما هو ممكن في إنشاء الفيديو والصوت.

هناك مشكلة واحدة أراها مع VideoPoet الآن: فهي غير متاحة حاليًا للاستخدام العام. لقد تواصلنا مع Google للحصول على مزيد من المعلومات حول الموعد المحتمل لإتاحتها وسنقوم بالتحديث عندما نتلقى الرد. ولكن حتى ذلك الحين، سيتعين علينا أن ننتظر بفارغ الصبر وصوله لنرى كيف يمكن مقارنته بالأدوات الأخرى الموجودة في السوق.

مهمة VentureBeat هو أن تكون ساحة مدينة رقمية لصانعي القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف ملخصاتنا.

اقرأ أكثر

يبدو مولد الفيديو الجديد متعدد الوسائط المزود بالذكاء الاصطناعي من Google VideoPoet مذهلاً

حدث VB

كان التدريب المسبق هو المفتاح

مقاطع أطول وذات جودة أعلى مع حركة أكثر اتساقًا

مصممة للفيديو العمودي

Reactions

ردود الفعل