خدمة مجتمع عشاق التكنولوجيا لأكثر من 25 عامًا.
TechSpot يعني التحليل الفني والمشورة يمكنك الوثوق. اقرأ لدينا بيان الأخلاق.
ماذا حدث للتو؟ لقد تطورت تكنولوجيا توليد الصور بسرعة في السنوات الأخيرة، ومع ذلك فإن تحقيق عرض فيديو متماسك لا يزال يمثل تحديًا لنماذج الذكاء الاصطناعي المعاصرة. ومع ذلك، فقد أظهرت Google مؤخرًا تقدمًا ملحوظًا في هذا المجال، حيث عرضت تقنية محسنة بشكل كبير في مجال إنشاء الفيديو.
لقد كشفت جوجل للتو لوميير، أحدث نموذج للذكاء الاصطناعي للشركة لإنشاء الفيديو. يعد Lumiere تحسنًا كبيرًا في تركيب الفيديو، كما تقول Google، حيث كان إنشاء “حركة واقعية ومتنوعة ومتماسكة” دائمًا أحد التحديات الرئيسية لتوليد الفيديو المعتمد على الذكاء الاصطناعي. يقدم لوميير نموذجًا للانتشار الزماني والمكاني الذي يمكنه على ما يبدو حل هذه المشكلة أو محاولة حلها.
تعد أحدث غزوة لشركة Mountain View في مجال الذكاء الاصطناعي التوليدي جيدة بما يكفي لإنشاء تحويل النص إلى فيديو وعرض الصورة إلى الفيديو والتوليد المنمق. يمكن للمستخدمين إنشاء مقطع فيديو جديد تمامًا عن طريق كتابة مطالبة نصية، أو توفير صورة مصدر (بغض النظر عن مدى صحة هذه الصورة أو واقعيتها أو تحريرها)، أو باستخدام صورة مرجعية كنمط الهدف.
يستخدم Lumiere “هندسة Space-Time U-Net” الجديدة التي تولد مقطع الفيديو بأكمله مرة واحدة، من خلال تمريرة واحدة في نموذج الذكاء الاصطناعي. بالمقارنة مع النماذج الحالية، التي تقوم بتجميع إطارات رئيسية مختلفة لنفس الفيديو، يمكن لمنهج لوميير أن يحقق أحدث نتائج تحويل النص إلى فيديو، مع غرابة أقل بكثير من ذي قبل.
تتضمن إمكانيات Lumiere الإضافية تصميم الفيديو، والذي يحول الفيديو المصدر إلى مواد مختلفة، وCinemagraphs، التي توفر طريقة لتحريك جزء محدود ومميز في الصورة المصدر. يمكن لميزة Video Inpainting تغيير أجزاء فردية من الفيديو المصدر، مثل تغيير الألوان أو المواد أو الأنسجة الخاصة بفستان الفتاة.
كما يسلط الضوء على جوجل في ورقة رسميةيمكن لـ Lumiere إنشاء مقاطع فيديو “منخفضة الدقة” مقاس 1024 × 1024 لا تزيد مدتها عن 5 ثوانٍ. كانت نماذج فيديو الذكاء الاصطناعي السابقة قادرة على إنتاج مقاطع فيديو أطول، لكن جوجل تدعي أن المستخدمين يفضلون إخراج Lumiere على نماذج الذكاء الاصطناعي الحالية. تقول ماونتن فيو إن لوميير تم تدريبه على مجموعة بيانات تحتوي على 30 مليون مقطع فيديو بالإضافة إلى أوصافها النصية، على الرغم من أن أصل (أو حالة حقوق الطبع والنشر) لمقاطع الفيديو التي تم الحصول عليها ومدتها 5 ثوانٍ غير معروف حاليًا.
تسلط الورقة البحثية التي أعدها باحثو Google الضوء على “التأثير المجتمعي” المحتمل لتقنية الذكاء الاصطناعي المولدة للفيديو مثل Lumiere، مشيرة إلى أن الهدف الأساسي للنموذج هو تمكين “المستخدمين المبتدئين” من إنشاء محتوى مرئي بطرق إبداعية ومرنة جديدة. ومع ذلك، ينبغي تطوير أدوات جديدة لاكتشاف التحيزات وحالات الاستخدام “الضار” لنماذج إنشاء الفيديو في أسرع وقت ممكن لتجنب إفساد المتعة.