كشفت Google النقاب عن Lumiere – الأحدث في إنشاء تحويل النص إلى صورة واقعي وتحويل النص إلى فيديو باستخدام التعلم الآلي. أحد الابتكارات الرئيسية هو القدرة على إنشاء حركة واقعية مثل المشي، وهو الأمر الذي تواجه أنظمة الذكاء الاصطناعي الحالية مشكلة فيه. يقوم البرنامج بذلك عن طريق إنشاء جميع إطارات الفيديو مرة واحدة بدلاً من استخدام الإطارات الرئيسية والتدريب لمعرفة كيفية ظهور الكائنات المتحركة.
كشفت Google النقاب عن Lumiere، وهو أحدث ما توصلت إليه تقنية الذكاء الاصطناعي الواقعية لتحويل النص إلى صورة والفيديو. يقوم البرنامج بتحسين الحركة بشكل كبير باستخدام أسلوب جديد لإنشاء إطارات الفيديو الذي يقوم بإنشاء جميع الإطارات في مسار واحد للتخفيف من أخطاء الحركة.
الصورة التوليدية يقوم الذكاء الاصطناعي بإنشاء صور من النص. أحد المفاتيح الرئيسية التي تتيح ذلك هو الكم الهائل من الصور ومقاطع الفيديو المتاحة للتدريب عبر الإنترنت. والأمر الآخر هو تطوير طرق لربط جميع الكلمات في اللغة مع بعضها البعض من خلال المتجهات. لذلك، يمكن للذكاء الاصطناعي أن يفهم كلمتين، أو في جملة، “أنا” أكثر احتمالاً من “أنا من جانب واحد”. يقوم الذكاء الاصطناعي لإنشاء الصور، مثل Stable Diffusion، بربط الكلمات بصور الكائنات. يفهم هذا الذكاء الاصطناعي أن عبارة “الإقامة الملكية” ترتبط ارتباطًا وثيقًا بصورة “القلعة” أكثر من صورة “المنزل”.
يعمل الذكاء الاصطناعي للفيديو على توسيع الذكاء الاصطناعي للصور لإنشاء مقاطع فيديو من النص. يقوم منافسو Lumiere أولاً بإنشاء الإطارات الرئيسية، ثم الإطارات الواقعة بينها. يشبه هذا رسامًا متحركًا محترفًا يرسم صور البداية والنهاية للقطة كرة سلة، ثم يطلب من مساعده رسم الصور بينهما. تكمن المشكلة في أن أخطاء الحركة تحدث غالبًا بسبب عدم رسم الصور الموجودة بين الصور بشكل صحيح، لذا يتجاوز Lumiere هذا عن طريق إنشاء جميع إطارات الفيديو بدون إطارات رئيسية. كما تم تدريب Lumiere على معرفة شكل الأجسام المتحركة بأحجام الصور المختلفة، لذلك تبدو مقاطع الفيديو الخاصة به متفوقة.
من الناحية الفنية، يستخدم Lumiere نماذج احتمالية للانتشار لإنشاء صور مقترنة بشبكة Space-Time U-Net، وهي بنية U-net ذات مقياس زمني لأعلى ولأسفل بالإضافة إلى كتل الانتباه المضافة إلى مقياس دقة الصورة المعتاد. يؤدي خفض الحجم مؤقتًا بالتزامن مع الدقة إلى تقليل أعباء العمل الحسابية بشكل كبير، بينما يؤدي توسيع النطاق المقترن بنموذج الدقة المكانية الفائقة والمدرك مؤقتًا إلى إنشاء مخرجات عالية الدقة. ومع ذلك، فإن تجزئة إطار الصورة مطلوبة بسبب قيود الذاكرة، لذلك يتم استخدام الانتشار المتعدد عبر حدود مقطع الإطار المتداخلة للمساعدة في تخفيف آثار الحركة الزمنية.
يمكن دمج Lumiere مع الذكاء الاصطناعي الآخر لإنشاء نطاق أوسع من المخرجات. هذا يتضمن:
- مقاطع سينمائية – يتم تحريك قسم واحد من الصورة
- Inpainting – يتم استبدال كائن واحد في الفيديو بآخر
- الجيل المنمق – يتم إعادة إنشاء المظهر بأسلوب فني آخر
- صورة إلى فيديو – الصورة المطلوبة متحركة
- فيديو إلى فيديو – يتم إعادة إنشاء مقاطع الفيديو بأسلوب فني آخر
يقتصر طول الفيديو على 5 ثوانٍ بينما لا توجد إمكانية إنشاء انتقالات فيديو وزوايا متعددة للكاميرا. يجب على القراء المهتمين بتجربة الذكاء الاصطناعي التوليدي على أجهزة الكمبيوتر المكتبية الخاصة بهم الترقية إلى بطاقة فيديو قوية (مثل هذا في أمازون) للحصول على أفضل أداء أثناء التدريب.
مقالات ذات صلة
ديفيد شين – كاتب أخبار – 78 مقالة منشورة على موقع Notebookcheck منذ عام 2023
بعد أن عملت في Activision وUCLA وAnime Expo وغيرها، رأيت التكنولوجيا تُستخدم لإنقاذ الأرواح وإنشاء الألعاب وإنشاء عوالم رائعة ثلاثية الأبعاد للواقع الافتراضي/الواقع المعزز. هناك دائمًا شيء ممتع في التكنولوجيا الناشئة وأريد أن أضع يدي عليه ويلجأ إلي جميع أصدقائي للعثور على الأفضل لاحتياجاتهم، لذلك يسعدني أن أعرض تجربتي على Notebookcheck.
ديفيد شين، 31/01/2024 (التحديث: 31/01/2024)