حقوق الصورة: enriccorona.github.io/vlogger
انضم إلى القادة في بوسطن يوم 27 مارس لقضاء ليلة حصرية من التواصل والأفكار والمحادثات. اطلب دعوه هنا.
الباحثين جوجل لقد طورت نظامًا جديدًا للذكاء الاصطناعي يمكنه إنشاء مقاطع فيديو واقعية لأشخاص يتحدثون ويحركون ويتحركون – من مجرد صورة ثابتة واحدة. وتعتمد هذه التقنية، التي تسمى VLOGGER، على نماذج التعلم الآلي المتقدمة لتجميع لقطات واقعية بشكل مذهل، وفتح مجموعة من التطبيقات المحتملة مع إثارة المخاوف أيضًا بشأن التزييف العميق والمعلومات المضللة.
جاء ذلك في بحث بعنوان “VLOGGER: نشر متعدد الوسائط لتوليف الصورة الرمزية المجسدة“، يمكن لنموذج الذكاء الاصطناعي التقاط صورة لشخص ومقطع صوتي كمدخل، ثم إخراج مقطع فيديو يطابق الصوت، ويظهر الشخص وهو يتحدث الكلمات ويقوم بتعبيرات الوجه وحركات الرأس وإيماءات اليد المقابلة. مقاطع الفيديو ليست مثالية، مع وجود بعض الشوائب، ولكنها تمثل قفزة كبيرة في القدرة على تحريك الصور الثابتة.
اختراق في توليف الرؤوس الناطقة
الباحثون بقيادة إنريك كورونا في Google Research، استفادت من نوع من نماذج التعلم الآلي يسمى نماذج الانتشار لتحقيق النتيجة الجديدة. أظهرت نماذج الانتشار مؤخرًا أداءً رائعًا في إنشاء صور واقعية للغاية من أوصاف النص. ومن خلال توسيعها لتشمل مجال الفيديو والتدريب على مجموعة بيانات جديدة واسعة، تمكن الفريق من إنشاء نظام ذكاء اصطناعي يمكنه إضفاء الحيوية على الصور بطريقة مقنعة للغاية.
“على النقيض من العمل السابق، فإن طريقتنا لا تتطلب تدريبًا لكل شخص، ولا تعتمد على اكتشاف الوجه واقتصاصه، وتولد الصورة الكاملة (وليس فقط الوجه أو الشفاه)، وتأخذ في الاعتبار مجموعة واسعة من السيناريوهات (على سبيل المثال المرئية). كتب المؤلفون: “الجذع أو هويات الموضوعات المتنوعة) التي تعتبر بالغة الأهمية لتجميع البشر الذين يتواصلون بشكل صحيح”.
حدث VB
جولة AI Impact – أتلانتا
لمواصلة جولتنا، سنتوجه إلى أتلانتا للتوقف في جولة AI Impact Tour في 10 أبريل. سيتضمن هذا الحدث الحصري والمدعوم فقط، بالشراكة مع Microsoft، مناقشات حول كيفية قيام الذكاء الاصطناعي المبتكر بتحويل القوى العاملة في مجال الأمن. المساحة محدودة، لذا اطلب دعوة اليوم.
كان أحد العوامل التمكينية الرئيسية هو تنظيم مجموعة بيانات جديدة ضخمة تسمى MENTOR تحتوي على أكثر من 800000 هوية متنوعة و2200 ساعة من الفيديو – وهو ترتيب أكبر مما كان متاحًا سابقًا. سمح هذا لـ VLOGGER بتعلم كيفية إنشاء مقاطع فيديو لأشخاص من أعراق وأعمار وملابس وأوضاع ومناطق محيطة متنوعة دون تحيز.
التطبيقات المحتملة والآثار الاجتماعية
تفتح التكنولوجيا مجموعة من حالات الاستخدام المقنعة. توضح الورقة قدرة VLOGGER على دبلجة مقاطع الفيديو تلقائيًا إلى لغات أخرى عن طريق تبديل المسار الصوتي، وتحرير الإطارات المفقودة وملء الإطارات المفقودة في مقطع فيديو بسلاسة، وإنشاء مقاطع فيديو كاملة لشخص من صورة واحدة.
يمكن للمرء أن يتخيل قدرة الممثلين على ترخيص نماذج ثلاثية الأبعاد مفصلة لأنفسهم يمكن استخدامها لتوليد عروض جديدة. ويمكن أيضًا استخدام هذه التقنية لإنشاء صور رمزية واقعية للواقع الافتراضي والألعاب. وقد يمكّن من إنشاء مساعدين افتراضيين وروبوتات دردشة مدعومة بالذكاء الاصطناعي تكون أكثر جاذبية وتعبيراً.
ترى Google أن VLOGGER هو خطوة نحو “وكلاء المحادثة المجسدين” الذين يمكنهم التفاعل مع البشر بشكل طبيعي من خلال الكلام والإيماءات والتواصل البصري. كتب المؤلفون: “يمكن استخدام VLOGGER كحل مستقل للعروض التقديمية، والتعليم، والسرد، والاتصالات عبر الإنترنت ذات النطاق الترددي المنخفض، وكواجهة للتفاعل بين الإنسان والحاسوب عبر النص فقط”.
ومع ذلك، فإن التكنولوجيا لديها أيضًا إمكانية إساءة الاستخدام، على سبيل المثال في إنشاء عمليات تزييف عميق – وهي وسائط اصطناعية يتم من خلالها استبدال شخص في مقطع فيديو بشبه شخص آخر. نظرًا لأن مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي أصبحت أكثر واقعية وأسهل في الإنشاء، فقد يؤدي ذلك إلى تفاقم التحديات المتعلقة بالمعلومات الخاطئة والتزييف الرقمي.
حدود جديدة في أبحاث الذكاء الاصطناعي
على الرغم من أنه مثير للإعجاب، إلا أن VLOGGER لا يزال لديه قيود. مقاطع الفيديو التي تم إنشاؤها قصيرة نسبيًا ولها خلفية ثابتة. لا يتحرك الأفراد في بيئة ثلاثية الأبعاد. وعلى الرغم من أن سلوكياتهم وأنماط كلامهم واقعية، إلا أنه لا يمكن تمييزها بعد عن تلك الخاصة بالبشر الحقيقيين.
ومع ذلك، يمثل VLOGGER خطوة مهمة إلى الأمام. أفاد المؤلفون: “لقد قمنا بتقييم VLOGGER على ثلاثة معايير مختلفة وأظهرنا أن النموذج المقترح يتفوق على الأساليب الحديثة الأخرى في جودة الصورة والحفاظ على الهوية والاتساق الزمني”.
ومع مزيد من التقدم، من المرجح أن يصبح هذا النوع من الوسائط التي يولدها الذكاء الاصطناعي منتشرًا في كل مكان. قد نعيش قريبًا في عالم يصعب فيه معرفة ما إذا كان الشخص الذي يتحدث إلينا في مقطع فيديو حقيقيًا أم تم إنشاؤه بواسطة برنامج كمبيوتر.
يقدم VLOGGER لمحة مبكرة عن هذا المستقبل. إنه دليل قوي على التقدم السريع الذي يتم إحرازه في الذكاء الاصطناعي وعلامة على التحديات المتزايدة التي سنواجهها في التمييز بين ما هو حقيقي وما هو مزيف.
مهمة VentureBeat هو أن تكون ساحة مدينة رقمية لصانعي القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف ملخصاتنا.