كانت الحواف المنزلقة تدور وتتأرجح في الموج
تعد حركات الثرثرة غير المنطقية التي أنشأها Sora من OpenAI نموذجية للفيديو الحالي الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي، وإليكم السبب.
صورة ثابتة من مقطع فيديو تم إنشاؤه بواسطة الذكاء الاصطناعي للاعب جمباز اصطناعي دائم التغير. ائتمان:”https://x.com/deedydas/status/1866509455896260813″ الهدف=”_blank”> أوبن آي / ديدي
يوم الأربعاء، فيديو من OpenAI”https://arstechnica.com/ai/2024/12/ten-months-after-first-tease-openai-launches-sora-video-generation-publicly/”> تم إطلاقه حديثًا سورا AI مولد الفيديو”https://x.com/deedydas/status/1866509455896260813″> ذهب فيروسي على وسائل التواصل الاجتماعي، تظهر فيها لاعبة جمباز تنبت أطرافًا إضافية وتفقد رأسها لفترة وجيزة أثناء ما يبدو أنه روتين على الأرض على الطراز الأولمبي.
كما اتضح، فإن الأخطاء التركيبية غير المنطقية في الفيديو هي ما نحب أن نطلق عليه “jabberwockies”- تلميح إلى التفاصيل الفنية حول كيفية عمل مولدات فيديو الذكاء الاصطناعي وكيف يمكن أن تتحسن في المستقبل.
ولكن قبل أن نتعمق في التفاصيل، دعونا نلقي نظرة على الفيديو.
في الفيديو نرى منظرًا لما يشبه”https://en.wikipedia.org/wiki/Floor_(gymnastics)”> الجمباز الأرضي روتين. يتقلب موضوع الفيديو ويتقلب مع ظهور أرجل وأذرع جديدة بسرعة وسهولة وتتحول من جسدها الدوار والمتحول. وفي مرحلة ما، بعد حوالي 9 ثوانٍ، تفقد رأسها، ويعود الرأس إلى جسدها تلقائيًا.
“As cool as the new Sora is, gymnastics is still very much the Turing test for AI video,” كتب الرأسمالي المغامر”https://debarghyadas.com/”> ديدي داس عندما كان في الأصل”https://x.com/deedydas/status/1866509455896260813″> شارك الفيديو على X. ألهم الفيديو الكثير من نكات ردود الفعل، مثل هذه”https://bsky.app/profile/thryse.com/post/3ld2g3w6zys2s”> الرد إلى منشور مماثل على Bluesky: “hi, gymnastics expert here! this is not funny, gymnasts only do this when they’re in extreme distress.”
لقد تواصلنا مع داس، وأكد أنه قام بإنشاء الفيديو باستخدام سورا. كما قدم أيضًا الموجه، الذي كان طويلًا جدًا ومقسمًا إلى أربعة أجزاء، تم إنشاؤه بواسطة Anthropic’s Claude، باستخدام تعليمات معقدة مثل “The gymnast initiates from the back right corner, taking position with her right foot pointed behind in B-plus stance.”
“I’ve known for the last 6 months having played with text to video models that they struggle with complex physics movements like gymnastics,” أخبرنا داس في محادثة. “I had to try it [in Sora] because the character consistency seemed improved. Overall, it was an improvement because previously… the gymnast would just teleport away or change their outfit mid flip, but overall it still looks downright horrifying. We hoped AI video would learn physics by default, but that hasn’t happened yet!”
إذن ما الخطأ الذي حدث؟
عند فحص كيفية فشل الفيديو، يجب عليك أولاً أن تفكر في كيفية فشل سورا “knows” كيفية إنشاء أي شيء يشبه روتين الجمباز. أثناء مرحلة التدريب، عندما تم إنشاء نموذج Sora، قامت OpenAI بتغذية أمثلة لمقاطع فيديو لروتينات الجمباز (من بين العديد من أنواع مقاطع الفيديو الأخرى) في شبكة عصبية متخصصة تربط تطور الصور بأوصاف نصية لها.
هذا النوع من التدريب هو مرحلة مميزة تحدث مرة واحدة قبل إصدار النموذج. لاحقًا، عندما يتم تشغيل النموذج النهائي وتعطي نموذج تركيب فيديو مثل Sora مطالبة مكتوبة، فإنه يعتمد على الارتباطات الإحصائية بين الكلمات والصور لإنتاج مخرجات تنبؤية. إنه يقوم باستمرار بعمل تنبؤات بالإطار التالي بناءً على الإطار الأخير من الفيديو. لكن لدى سورا خدعة أخرى لمحاولة الحفاظ على التماسك مع مرور الوقت. “By giving the model foresight of many frames at a time,” يقرأ باستخدام بطاقة نظام Sora من OpenAI، قمنا بحل مشكلة صعبة تتمثل في التأكد من بقاء الموضوع كما هو حتى عندما يخرج عن نطاق الرؤية مؤقتًا.”
ربما لم يتم حلها تماما بعد. في هذه الحالة، تمثل الأطراف المتحركة بسرعة تحديًا خاصًا عند محاولة التنبؤ بالإطار التالي بشكل صحيح. والنتيجة هي مزيج غير متماسك من لقطات الجمباز التي تظهر نفس لاعب الجمباز وهو يقوم بالشقلبة والدوران، لكن سورا لا يعرف الترتيب الصحيح لتجميعها لأنه يعتمد على متوسطات إحصائية لحركات الجسم المختلفة تمامًا في تدريبه المحدود نسبيًا. بيانات مقاطع فيديو الجمباز، والتي من المحتمل أيضًا أنها لم تتضمن الدقة على مستوى الأطراف في بياناتها الوصفية.
سورا لا يعرف شيئًا عن الفيزياء أو كيف يجب أن يعمل جسم الإنسان أيضًا. إنها تعتمد على الارتباطات الإحصائية بين وحدات البكسل الموجودة في مقاطع الفيديو في مجموعة بيانات التدريب الخاصة بها للتنبؤ بالإطار التالي، مع القليل من التطلع إلى الأمام لإبقاء الأمور أكثر اتساقًا.
هذه المشكلة ليست فريدة من نوعها لسورا. يمكن لجميع مولدات الفيديو المدعومة بالذكاء الاصطناعي إنتاج نتائج غير منطقية إلى حد كبير عندما تتجاوز مطالباتك بيانات التدريب الخاصة بها، كما رأينا”https://arstechnica.com/information-technology/2024/07/we-made-a-cat-drink-a-beer-with-runways-ai-video-generator-and-it-sprouted-hands/”> في وقت سابق من هذا العام عند اختبار Runway’s Gen-3. في الواقع، قمنا بتنفيذ بعض مطالبات لاعبي الجمباز من خلال أحدث نموذج فيديو مفتوح المصدر يعمل بالذكاء الاصطناعي والذي قد ينافس سورا في بعض النواحي،”https://hunyuanvideoai.com/”> فيديو هونيوان، وأنتج نتائج دوران وتحول مماثلة، كما هو موضح أدناه. واستخدمنا مطالبة أبسط بكثير مما استخدمه داس مع سورا.
تعتبر نماذج الذكاء الاصطناعي المبنية على تكنولوجيا المحولات ذات طبيعة مقلدة بشكل أساسي. إنها رائعة في تحويل نوع واحد من البيانات إلى نوع آخر أو تحويل نمط إلى آخر. ما لم يتقنوه (حتى الآن) هو إنتاج أجيال متماسكة ومبتكرة حقًا. لذا، إذا قمت بتقديم مطالبة تتطابق بشكل وثيق مع مقطع فيديو تدريبي، فقد تحصل على نتيجة جيدة. وإلا قد تصاب بالجنون.
كما كتبنا عن نموذج تركيب الصور Stable Diffusion 3’s”https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/”> أجيال رعب الجسد في وقت سابق من هذا العام، “Basically, any time a user prompt homes in on a concept that isn’t represented well in the AI model’s training dataset, the image-synthesis model will confabulate its best interpretation of what the user is asking for. And sometimes that can be completely terrifying.”
بالنسبة للمهندسين الذين يصنعون هذه النماذج، فإن النجاح في إنشاء فيديو الذكاء الاصطناعي سرعان ما يصبح مسألة عدد الأمثلة (ومقدار التدريب) التي تحتاجها قبل أن يتمكن النموذج من التعميم بما يكفي لإنتاج نتائج مقنعة ومتماسكة. إنها أيضًا مسألة جودة البيانات الوصفية، أي مدى دقة تصنيف مقاطع الفيديو. في هذه الحالة، استخدمت OpenAI نموذج رؤية الذكاء الاصطناعي لوصف مقاطع الفيديو التدريبية الخاصة بها، مما ساعد على تحسين الجودة، ولكن على ما يبدو ليس كافيًا – حتى الآن.
نحن ننظر إلى الذكاء الاصطناعي الثاقب أثناء العمل
بطريقة ما، يعتبر نوع فشل الجيل في فيديو لاعبة الجمباز شكلاً من أشكال”https://arstechnica.com/information-technology/2023/04/why-ai-chatbots-are-the-ultimate-bs-machines-and-how-people-hope-to-fix-them/”> الخلط (أو الهلوسة كما يسميها البعض)، لكنها أسوأ لأنها غير متماسكة. لذا بدلًا من تسميتها بالتلفيق، وهو تلفيق يبدو معقولًا، سنعتمد على مصطلح جديد، “jabberwocky,” الذي Dictionary.com”https://www.dictionary.com/browse/jabberwocky”>يحدد مثل “a playful imitation of language consisting of invented, meaningless words; nonsense; gibberish,” مأخوذة من لويس كارول”https://en.wikipedia.org/wiki/Jabberwocky”> قصيدة هراء من نفس الاسم. تقول تقليد وهراء؟ تحقق وتحقق.
لقد قمنا بتغطية الثرثرة في فيديو الذكاء الاصطناعي من قبل مع الناس”https://arstechnica.com/information-technology/2024/08/viral-trend-sees-humans-simulating-bizarre-ai-video-glitches/”>سخرية نماذج تركيب الفيديو الصينية، غريبة بشكل رهيب”https://arstechnica.com/information-technology/2023/05/ai-generated-beer-commercial-contains-joyful-monstrosities-goes-viral/”> AI البيرة التجاريةوحتى”https://arstechnica.com/information-technology/2024/02/will-smith-parodies-viral-ai-generated-video-by-actually-eating-spaghetti/”> ويل سميث يأكل السباغيتي. إنها شكل من أشكال سوء الفهم حيث يفشل نموذج الذكاء الاصطناعي تمامًا في إنتاج مخرجات معقولة. ولن تكون هذه هي المرة الأخيرة التي نراهم فيها أيضًا.
كيف يمكن أن تتحسن نماذج فيديو الذكاء الاصطناعي وتتجنب الثرثرة؟
في تغطيتنا ل”https://arstechnica.com/information-technology/2024/07/we-made-a-cat-drink-a-beer-with-runways-ai-video-generator-and-it-sprouted-hands/”> الجيل 3 ألفا، أطلقنا على العتبة التي تحصل فيها على مستوى من التعميم المفيد في نموذج الذكاء الاصطناعي اسم “illusion of understanding,” حيث تصل بيانات التدريب ووقت التدريب إلى كتلة حرجة تنتج نتائج جيدة بما يكفي للتعميم عبر ما يكفي من المطالبات الجديدة.
أحد الأسباب الرئيسية وراء إعجاب المستخدمين بنماذج اللغات مثل GPT-4 من OpenAI هو أنهم وصلوا أخيرًا إلى الحجم الذي استوعبوا فيه ما يكفي من المعلومات لإضفاء مظهر الفهم الحقيقي للعالم. باستخدام تركيب الفيديو، يتم تحقيق نفس المستوى الواضح من “understanding” لن يتطلب الأمر كميات هائلة من بيانات التدريب جيدة التصنيف فحسب، بل سيتطلب أيضًا قوة حسابية لمعالجتها بفعالية.
ويأمل مؤيدو الذكاء الاصطناعي أن تمثل هذه النماذج الحالية إحدى الخطوات الرئيسية على الطريق نحو شيء مثل الذكاء العام الحقيقي (غالبًا ما يسمى AGI) في النص، أو في فيديو الذكاء الاصطناعي، ماذا”https://openai.com/index/video-generation-models-as-world-simulators/”>أوبن إيه آي و”https://runwayml.com/research/introducing-general-world-models”> المدرج يدعو الباحثون “world simulators” أو “world models” التي تشفر بطريقة أو بأخرى ما يكفي من القواعد الفيزيائية حول العالم لإنتاج أي نتيجة واقعية.
إذا حكمنا من خلال تحول لاعبة الجمباز الغريبة، فقد لا يزال هذا أمرًا بعيد المنال. ومع ذلك، مازلنا في الأيام الأولى لإنتاج فيديو الذكاء الاصطناعي، وبالحكم على مدى سرعة نماذج تركيب الصور المعتمدة على الذكاء الاصطناعي”https://arstechnica.com/information-technology/2024/01/a-crazy-update-midjourney-v6-upgrade-heaps-on-ai-generated-detail/”> منتصف الرحلة تطورت من الأشكال المجردة الخام إلى صور متماسكة، فمن المحتمل أن يكون لتركيب الفيديو مسار مماثل مع مرور الوقت. وحتى ذلك الحين، استمتع بجنون الثرثرة الناتج عن الذكاء الاصطناعي.
بينج إدواردز هو كبير مراسلي الذكاء الاصطناعي في Ars Technica ومؤسس موقع الذكاء الاصطناعي المخصص للموقع في عام 2022. وهو أيضًا مؤرخ تقني يتمتع بخبرة تقرب من عقدين من الزمن. في أوقات فراغه، يكتب الموسيقى ويسجلها، ويجمع أجهزة الكمبيوتر القديمة، ويستمتع بالطبيعة. يعيش في رالي، كارولاينا الشمالية.