شاهد الذكاء الاصطناعي من Google وهو يحول النص العادي إلى فيديو عالي الجودة

عندما بدأت الصور عالية الجودة التي ينتجها الذكاء الاصطناعي التوليدي في الظهور لأول مرة في عام 2022، كان لها عامل نجاح باهر لا يمكن إنكاره. لم تتضمن العملية الإبداعية أكثر من مجرد إدخال وصف نصي وانتظار نظام الذكاء الاصطناعي لإنتاج صورة ذات صلة.

في ذلك الوقت، كان السؤال الواضح هو متى يمكن لفيديوهات الذكاء الاصطناعي أن تلحق بالركب. في الواقع، كشفت مجموعات مختلفة منذ ذلك الحين عن أنظمة الذكاء الاصطناعي التي تولد مقاطع فيديو تلقائيًا، ولكن دائمًا مع حدود مهمة لطولها، ونوع الحركة الواقعية التي يمكن أن تنتجها، وجودتها الإجمالية.

إحدى الطرق لحل هذه المشاكل هي القوة الغاشمة. لكن هذه القوة الحاسوبية تزيد التكاليف بشكل كبير. لذلك استمر البحث لإيجاد طرق أكثر كفاءة وقدرة.

ضوء رائع

والآن تقول جوجل إنها طورت مثل هذه التقنية التي تعمل على تحسين كفاءة تركيب الفيديو بشكل كبير. يقول عمر بار تال وزملاؤه في جوجل إن نظامهم الجديد، المسمى لوميير، ينتج مقاطع فيديو تصور حركة واقعية ومتنوعة ومتماسكة.

“نحن نعرض أحدث نتائج إنشاء الفيديو ونظهر كيفية تكييف Lumiere بسهولة مع عدد كبير من مهام إنشاء محتوى الفيديو، بما في ذلك رسم الفيديو، أو إنشاء صورة إلى فيديو، أو إنشاء مقاطع فيديو منمقة تتوافق مع نمط معين الصورة”، كما يقولون.

أحد الأساليب الشائعة لتركيب فيديو الذكاء الاصطناعي هو إنشاء عدة إطارات رئيسية في تسلسل فيديو أولاً ثم استخدام هذه الصور لإنشاء الإطارات المفقودة بينهما.

إن تقسيم المهمة بهذه الطريقة له ميزة تبسيط المتطلبات الحسابية ولكن له أيضًا عيوب. على وجه الخصوص، تواجه هذه الأنظمة صعوبة في تقديم الحركة السريعة التي تحدث بين الإطارات الرئيسية.

لقد توصل بار تال وزملاؤه إلى طريقة مختلفة تقوم بتجميع الفيديو بأكمله في نفس الوقت. يفعلون ذلك من خلال تدريب نظام الذكاء الاصطناعي على التعامل مع أبعاد الزمان والمكان بنفس الطريقة. يسمح نهج الزمكان هذا للذكاء الاصطناعي بإنشاء مخرجات الفيديو بالكامل في نفس الوقت.

وهذا يتناقض بشكل صارخ مع الجهود السابقة التي تم تدريبها فقط على التغييرات المكانية مع الحفاظ على دقة زمنية ثابتة. يعد تمثيل الزمكان في Google أكثر إحكاما بكثير وبالتالي أكثر كفاءة من الناحية الحسابية. يقول بار تال وزملاؤه: “من المثير للدهشة أن اختيار التصميم هذا قد تم التغاضي عنه في نماذج تحويل النص إلى الفيديو السابقة”.

الجزء الرئيسي من هذه العملية هو تقنية الذكاء الاصطناعي المعروفة والتي تسمى الانتشار والتي تستخدم على نطاق واسع لإنتاج صور فردية. يبدأ نظام الذكاء الاصطناعي بإطار يتكون بالكامل من الضوضاء، والذي يعدله تدريجيًا ليتوافق مع توزيع البيانات الذي تعلمه، سواء كان ذلك مرتبطًا بقطة أو كلب أو رائد فضاء يركب دراجة على المريخ.

يعمل لوميير بنفس الطريقة. ولكن بدلًا من إنتاج صورة واحدة تتوافق مع توزيع بيانات محدد، فإنها تقوم بإنشاء تسلسل يصل إلى 80 صورة، أو بشكل أكثر دقة، تمثيلًا لهذه الصور في الزمكان.

يقوم الذكاء الاصطناعي بعد ذلك بتعديل هذا التمثيل ليتناسب مع توزيع البيانات الذي تعلمه النظام من تدريبه على ملايين الساعات من لقطات الفيديو. ثم يقوم بعد ذلك بتفكيك تمثيل الزمكان في فيديو عادي.

والنتيجة هي تسلسل فيديو مدته خمس ثوانٍ، وهو طول يقول Google إنه أطول من متوسط مدة اللقطة في معظم الوسائط.

النتائج مثيرة للإعجاب. بالنظر إلى وصف نصي مثل “باندا يعزف على القيثارة في المنزل” أو “الطيران عبر معبد مدمر، ملحمة، ضباب”، ينتج لوميير تسلسل فيديو عالي الجودة يعرض، حسنًا، هذه الأشياء فقط.

ويمكنه أيضًا البدء بصورة وتحريكها حسب الطلب. يستخدم بار تال وزملاؤه لوحة فيرمير الشهيرة الفتاة صاحبة حلق اللؤلؤ واجعل لوميير يحركها لتظهر الفتاة وهي تغمز وتبتسم.

أعط لوميير صورة مرجعية، مثل صورة فان جوخ ليلة مرصعة بالنجوم وسوف ينتج فيديو بنفس النمط. أعطه فيديو، على سبيل المثال، لفتاة تجري، ويمكنه تعديله لجعل الفتاة تبدو وكأنها مصنوعة من الزهور أو كتل خشبية مكدسة. قام بار تال وزملاؤه بنشر العديد من الأمثلة على ذلك قدرات Lumiere على الانترنت.

وهذا عمل مثير للإعجاب ويثير سؤالاً واضحًا حول متى سيكون هذا متاحًا للمستهلكين العاديين وبأي تكلفة. جوجل لا يعطي إجابة في الوقت الحاضر.

قلق عميق

لكن الفريق يلمح إلى مشاكل محتملة يجب معالجتها في الوقت المناسب. ليس من الصعب أن نتخيل كيف يمكن للجهات الفاعلة الخبيثة استخدام مثل هذه التكنولوجيا لإنشاء صور مزيفة عميقة على نطاق ملحمي، ومن الواضح أن بار تال وزملائه يشعرون بالقلق.

ويقولون: “هناك خطر إساءة الاستخدام لإنشاء محتوى مزيف أو ضار باستخدام التكنولوجيا الخاصة بنا، ونعتقد أنه من الضروري تطوير وتطبيق أدوات للكشف عن التحيزات وحالات الاستخدام الضارة من أجل ضمان الاستخدام الآمن والعادل”.

إنهم ليسوا واضحين بشأن من الذي يقوم بتطوير مثل هذه التكنولوجيا، أو الذي ينبغي له أن يقوم بذلك. من المرجح أن يحتاج هذا النوع من الجهود إلى نوع من الحوادث الواقعية لفرض هذه المشكلة.

ولكن بدون هذه الأنواع من الضوابط، فإن التأثيرات تنتشر بالفعل. لقد أصبحت انتخابات هذا العام في الولايات المتحدة والمملكة المتحدة وأكبر ديمقراطية في العالم في الهند، بالفعل بمثابة أرض اختبار للطريقة التي يمكن بها استغلال هذه التقنيات.

ولم يتم بعد تحديد الدور الذي سيلعبه لوميير والأنظمة المماثلة الأخرى.

المرجع: لوميير: نموذج انتشار الزمان والمكان لتوليد الفيديو: arxiv.org/abs/2401.12945

اقرأ أكثر

شاهد الذكاء الاصطناعي من Google وهو يحول النص العادي إلى فيديو عالي الجودة

ضوء رائع

قلق عميق

Reactions

ردود الفعل