لوميير
حقوق الصورة: لوميير جيثب
مع استمرار المزيد والمزيد من الشركات في مضاعفة قوة الذكاء الاصطناعي التوليدي، تتسابق المنظمات لبناء عروض أكثر كفاءة لهم. مثال على ذلك: لوميير، نموذج انتشار الزمكان الذي اقترحه باحثون من جوجل, معهد وايزمان للعلوم و جامعة تل أبيب للمساعدة في إنشاء فيديو واقعي.
ال ورقة تفاصيل التكنولوجيا تم نشره للتو، على الرغم من أن النماذج لا تزال غير متاحة للاختبار. إذا تغير ذلك، فيمكن لجوجل أن تقدم لاعبًا قويًا جدًا في مساحة الفيديو المدعومة بالذكاء الاصطناعي، والتي يهيمن عليها حاليًا لاعبون مثل المدرج, بيكا و الاستقرار منظمة العفو الدولية.
يزعم الباحثون أن النموذج يتخذ نهجًا مختلفًا عن اللاعبين الحاليين ويقوم بتجميع مقاطع فيديو تصور حركة واقعية ومتنوعة ومتماسكة – وهو تحدٍ محوري في تركيب الفيديو.
ماذا يستطيع لوميير أن يفعل؟
في جوهره، Lumiere، الذي يعني الضوء، هو نموذج لنشر الفيديو يوفر للمستخدمين القدرة على إنشاء مقاطع فيديو واقعية ومنمقة. كما يوفر خيارات لتحريرها عند الأمر.
يمكن للمستخدمين تقديم مدخلات نصية تصف ما يريدون باللغة الطبيعية ويقوم النموذج بإنشاء مقطع فيديو يصور ذلك. يمكن للمستخدمين أيضًا تحميل صورة ثابتة موجودة وإضافة مطالبة لتحويلها إلى فيديو ديناميكي. يدعم النموذج أيضًا ميزات إضافية مثل الرسم الداخلي، الذي يقوم بإدراج كائنات محددة لتحرير مقاطع الفيديو باستخدام مطالبات نصية؛ Cinemagraph لإضافة الحركة إلى أجزاء معينة من المشهد؛ والجيل المصمم لأخذ النمط المرجعي من صورة واحدة وإنشاء مقاطع فيديو باستخدام ذلك.
“نحن نعرض أحدث نتائج تحويل النص إلى فيديو، ونظهر أن تصميمنا يسهل بسهولة مجموعة واسعة من مهام إنشاء المحتوى وتطبيقات تحرير الفيديو، بما في ذلك تحويل الصورة إلى فيديو، ورسم الفيديو، والتوليد المنمق “، أشار الباحثون في الورقة.
في حين أن هذه القدرات ليست جديدة في الصناعة و تم تقديمها من قبل لاعبين مثل Runway وبيكا، يزعم المؤلفان أن معظم النماذج الحالية تتناول أبعاد البيانات الزمنية المضافة (التي تمثل حالة زمنية) المرتبطة بتوليد الفيديو باستخدام نهج متتالي. أولاً، يقوم النموذج الأساسي بإنشاء إطارات رئيسية متباعدة ثم تقوم النماذج اللاحقة ذات الدقة الفائقة (TSR) بإنشاء البيانات المفقودة بينها في مقاطع غير متداخلة. ينجح هذا الأمر ولكنه يجعل تحقيق الاتساق الزمني أمرًا صعبًا، مما يؤدي غالبًا إلى قيود من حيث مدة الفيديو، والجودة المرئية الشاملة، ودرجة الحركة الواقعية التي يمكن أن تولدها.
وتعالج شركة Lumiere، من جانبها، هذه الفجوة باستخدام بنية Space-Time U-Net التي تولد المدة الزمنية الكاملة للفيديو مرة واحدة، من خلال تمريرة واحدة في النموذج، مما يؤدي إلى حركة أكثر واقعية وتماسكًا.
“من خلال نشر كل من العينات المكانية والأهم من ذلك الزمانية لأسفل وأعلى والاستفادة من نموذج نشر النص إلى الصورة المدرب مسبقًا، يتعلم نموذجنا إنشاء فيديو بمعدل إطار كامل ومنخفض الدقة مباشرة عن طريق معالجته وأشار الباحثون في ورقتهم البحثية إلى أنه في نطاقات زمنية متعددة.
تم تدريب نموذج الفيديو على مجموعة بيانات مكونة من 30 مليون مقطع فيديو، بالإضافة إلى التسميات التوضيحية النصية الخاصة بها، وهو قادر على إنشاء 80 إطارًا بمعدل 16 إطارًا في الثانية. لكن مصدر هذه البيانات لا يزال غير واضح في هذه المرحلة.
الأداء مقابل نماذج الفيديو المعروفة بالذكاء الاصطناعي
عند مقارنة النموذج مع العروض المقدمة من بيكا، المدرج، و الاستقرار منظمة العفو الدوليةلاحظ الباحثون أنه على الرغم من أن هذه النماذج أنتجت جودة بصرية عالية لكل إطار، إلا أن مخرجاتها التي تبلغ مدتها أربع ثوانٍ كانت ذات حركة محدودة للغاية، مما أدى إلى مقاطع شبه ثابتة في بعض الأحيان. ImagenVideo، لاعب آخر في هذه الفئة، أنتج حركة معقولة لكنه تأخر من حيث الجودة.
وكتب الباحثون: “في المقابل، تنتج طريقتنا مقاطع فيديو مدتها 5 ثوانٍ ذات حجم حركة أعلى مع الحفاظ على الاتساق الزمني والجودة الشاملة”. وقالوا إن المستخدمين الذين شملهم الاستطلاع حول جودة هذه النماذج يفضلون أيضًا Lumiere على المنافسة في مجال إنشاء النصوص والصور إلى الفيديو.
في حين أن هذا قد يكون بداية لشيء جديد في سوق فيديو الذكاء الاصطناعي سريع الحركة، فمن المهم ملاحظة أن Lumiere ليس متاحًا للاختبار بعد. تلاحظ الشركة أيضًا أن النموذج له قيود معينة. ولا يمكنه إنشاء مقاطع فيديو تتكون من لقطات متعددة أو تلك التي تتضمن انتقالات بين المشاهد، وهو الأمر الذي يظل تحديًا مفتوحًا للبحث المستقبلي.
مهمة VentureBeat هو أن تكون ساحة مدينة رقمية لصانعي القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف ملخصاتنا.