دخلت OpenAI مجال توليد الفيديو بالذكاء الاصطناعي عبر سورا Sora، وهو نموذج ذكاء اصطناعي توليدي يولد فيديو من النص.
ومن خلال تقديم وصف مختصر أو تفصيلي أو صورة ثابتة، يمكن لنموذج Sora توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسل مع شخصيات متعددة وأنواع مختلفة من الحركة وتفاصيل الخلفية.
ويستطيع Sora أيضًا تمديد مقاطع الفيديو الموجودة، إذ يبذل قصارى جهده لملء التفاصيل المفقودة.
وكتبت OpenAI في تدوينة: “يتمتع Sora بفهم عميق للغة، مما يمكنه من تفسير المطالبات بدقة وتوليد شخصيات مقنعة تعبر عن المشاعر النابضة بالحياة. يفهم النموذج ما طلبه المستخدم في الموجه، وكذلك كيفية وجود هذه الأشياء في العالم المادي”.
ويستطيع Sora توليد مقاطع فيديو بمجموعة من الأنماط، مثل الصور الواقعية والرسوم المتحركة والأسود والأبيض، لمدة تصل إلى دقيقة واحدة، أي أطول بكثير من معظم نماذج تحويل النص إلى فيديو.
وتحافظ مقاطع الفيديو على ترابط مقبول، بمعنى أن الأجسام لا تتحرك في اتجاهات مستحيلة فيزيائيًا.
وتقر OpenAI بأن النموذج ليس مثاليًا، إذ قالت: “قد يواجه Sora صعوبة في المحاكاة الدقيقة لفيزياء مشهد معقد، وقد لا يفهم حالات محددة من السبب والنتيجة”.
وقد يخلط النموذج بين التفاصيل المكانية للموجه، مثل الخلط بين اليسار واليمين، وقد يواجه صعوبة في الوصف الدقيق للأحداث التي تحدث بمرور الوقت، مثل اتباع مسار معين للكاميرا.
ووضعت OpenAI نموذج Sora بصفته معاينة بحثية، ولم تكشف سوى القليل عن البيانات المستخدمة لتدريب النموذج، وامتنعت عن جعل Sora متاحًا بصورة عامة من أجل منع إساءة الاستخدام، إذ تشير OpenAI إلى أن الجهات الفاعلة السيئة قد تسيء استخدام النموذج بطرق عديدة.
وتقول OpenAI إنها تعمل مع الخبراء لفحص ثغرات النموذج وبناء الأدوات لاكتشاف إذا كان Sora قد ولد مقطع فيديو أم لا.
وتقول الشركة أيضًا إنها تخطط لتضمين بيانات تعريف المصدر في المخرجات المولدة في حال اختارت بناء النموذج في صورة منتج للجمهور.