نموذج الذكاء الاصطناعي الجديد لجيل الفيديو من Google لوميير يستخدم أ نموذج انتشار جديد يسمى Space-Time-U-Net، أو STUNet، الذي يحدد مكان وجود الأشياء في الفيديو (المساحة) وكيف تتحرك وتتغير في نفس الوقت (الزمن). آرس تكنيكا تشير هذه الطريقة إلى أن هذه الطريقة تتيح لـ Lumiere إنشاء الفيديو في عملية واحدة بدلاً من تجميع إطارات ثابتة أصغر معًا.
يبدأ Lumiere بإنشاء إطار أساسي من الموجه. بعد ذلك، يستخدم إطار عمل STUNet للبدء في تقريب المكان الذي ستتحرك فيه الكائنات داخل هذا الإطار لإنشاء المزيد من الإطارات التي تتدفق إلى بعضها البعض، مما يخلق مظهر الحركة السلسة. يقوم Lumiere أيضًا بإنشاء 80 إطارًا مقارنة بـ 25 إطارًا من Stable Video Diffusion.
من المسلم به أنني مراسل نصي أكثر مني شخص فيديو، لكن ما نشرته جوجل من أخبار، جنبًا إلى جنب مع ورقة علمية مطبوعة مسبقًا، يوضح أن أدوات إنشاء الفيديو وتحريره باستخدام الذكاء الاصطناعي قد انتقلت من الوادي الغريب إلى شبه الواقعي في عدد قليل فقط سنين. كما أنه يؤسس لتقنية Google في المساحة التي يشغلها بالفعل المنافسون مثل Runway أو Stable Video Diffusion أو Meta’s. الاتحاد الاقتصادي والنقدي. Runway، إحدى أولى منصات تحويل النص إلى فيديو واسعة الانتشار في السوق، تم إصدار Runway Gen-2 في مارس من العام الماضي وبدأت في تقديم مقاطع فيديو أكثر واقعية. تواجه مقاطع فيديو المدرج أيضًا صعوبة في تصوير الحركة.
كان Google لطيفًا بما يكفي لوضع المقاطع والمطالبات على موقع Lumiere، مما سمح لي بوضع نفس المطالبات عبر Runway للمقارنة. وهنا النتائج:
نعم، بعض المقاطع المقدمة بها لمسة صناعية، خاصة إذا نظرت عن كثب إلى نسيج الجلد أو إذا كان المشهد أكثر جوًا. لكن انظر إلى تلك السلحفاة! إنها تتحرك مثل السلحفاة في الماء! يبدو وكأنه سلحفاة حقيقية! لقد أرسلت فيديو مقدمة Lumiere إلى صديق يعمل كمحرر فيديو محترف. في حين أشارت إلى أنه “يمكنك أن تقول بوضوح أن هذا ليس حقيقيًا تمامًا”، فقد اعتقدت أنه من المثير للإعجاب أنه إذا لم أخبرها أنه ذكاء اصطناعي، فسوف تعتقد أنه كان CGI. (قالت أيضًا: “سوف يأخذ ذلك وظيفتي، أليس كذلك؟”)
تقوم نماذج أخرى بتجميع مقاطع الفيديو معًا من الإطارات الرئيسية التي تم إنشاؤها حيث حدثت الحركة بالفعل (فكر في الرسومات الموجودة في كتاب ورقي)، بينما تتيح STUNet لـ Lumiere التركيز على الحركة نفسها بناءً على المكان الذي يجب أن يكون فيه المحتوى الذي تم إنشاؤه في وقت معين من الفيديو.
لم تكن جوجل لاعبًا كبيرًا في فئة تحويل النص إلى فيديو، ولكنها أصدرت ببطء نماذج ذكاء اصطناعي أكثر تقدمًا واتجهت نحو التركيز على الوسائط المتعددة. إنه برج الجوزاء نموذج لغوي كبير سيجلب في النهاية توليد الصور إلى Bard. Lumiere ليس متاحًا للاختبار بعد، ولكنه يُظهر قدرة Google على تطوير منصة فيديو تعمل بالذكاء الاصطناعي يمكن مقارنتها – ويمكن القول إنها أفضل قليلاً – من مولدات فيديو الذكاء الاصطناعي المتاحة بشكل عام مثل Runway وPika. ومجرد تذكير، كان هذا هو المكان كان جوجل مع فيديو الذكاء الاصطناعي منذ عامين.
الصورة: جوجل
بالإضافة إلى إنشاء تحويل النص إلى فيديو، سيسمح Lumiere أيضًا بإنشاء تحويل من صورة إلى فيديو، وإنشاء منمق، مما يتيح للمستخدمين إنشاء مقاطع فيديو بأسلوب معين، ورسومات سينمائية تعمل على تحريك جزء فقط من الفيديو، والرسم لإخفاء منطقة ما الفيديو لتغيير اللون أو النمط.
ومع ذلك، أشارت دراسة Lumiere التي أعدتها شركة Google إلى أن “هناك خطر إساءة الاستخدام لإنشاء محتوى مزيف أو ضار باستخدام التكنولوجيا الخاصة بنا، ونعتقد أنه من الضروري تطوير وتطبيق أدوات للكشف عن التحيزات وحالات الاستخدام الضار لضمان تجربة آمنة وعادلة”. يستخدم.” ولم يشرح مؤلفو الورقة كيف يمكن تحقيق ذلك.