بمجرد أن أطلقت Google أحدث طراز من الذكاء الاصطناعى المولدة للفيديو في نهاية شهر مايو ، هرع التصميمات لوضعه في خطواته. تم إصدارها بعد أشهر قليلة من سلفها ،”https://www.technologyreview.com/2025/05/21/1117251/by-putting-ai-into-everything-google-wants-to-make-it-invisible/”> VEO 3 يسمح للمستخدمين بإنشاء الأصوات والحوار لأول مرة ، مما يثير موجة من مقاطع واقعية ثماني ثوانٍ تم تخفيفها معًا في إعلانات ، ومقاطع فيديو ASMR ، ومقطورات الأفلام المتخيلة ، ومقابلات الفكاهة في الشوارع. استخدم المخرج دارين آرونوفسكي المخرج الذي حصل عليه الأوسكار الأداة لإنشاء فيلم قصير يسمى Ancestra. خلال”https://techcrunch.com/2025/05/20/googles-veo-3-can-generate-videos-and-soundtracks-to-go-along-with-them/”> الصحافة الإحاطة، شبّت Demis Hassabis ، الرئيس التنفيذي لشركة Google Deepmind ، القفزة إلى الأمام بـ “الخروج من العصر الصامت لتوليد الفيديو”.
لكن الآخرين”https://www.reddit.com/r/Bard/comments/1kwnvlr/how_do_i_stop_the_weird_veo_3_subtitles/”> بسرعة وجدت هذا في بعض النواحي”https://www.reddit.com/r/Bard/comments/1kvwn02/the_subtitles_are_messing_veo_3_outputs/”> الأداة لم يكن يتصرف كما هو متوقع. عندما يولد مقاطع تتضمن الحوار ، غالبًا ما يضيف Veo 3 ترجمات غير منطقية ومشتتة ، حتى عندما يتم تقديم المطالبات التي تم إعطاؤها بشكل صريح ، لا تتم إضافة أي تعليق أو ترجمات.
التخلص منهم ليس واضحًا – أو رخيصًا. أُجبر المستخدمون على اللجوء إلى مقاطع تجديد (التي تكلفهم المزيد من المال) ، أو باستخدام أدوات إعادة الترجمة الخارجية ، أو اقتصاص مقاطع الفيديو الخاصة بهم للتخلص من الترجمة تمامًا.
جوش وودوارد ، نائب رئيس Google Labs و Gemini ،”https://x.com/joshwoodward/status/1932140453153091787″> نشر في X في 9 يونيو ، قامت Google بتطوير إصلاحات لتقليل نص الرطوبة. ولكن بعد أكثر من شهر ، المستخدمون”https://discord.com/channels/1172568727942860810/1391508452991307926″> لا يزال قطع الأشجار القضايا معها في Google Labs ‘”https://discord.com/channels/1172568727942860810/1392866811233570958″> قناة Discord، إظهار مدى صعوبة تصحيح المشكلات في نماذج الذكاء الاصطناعى الرئيسية.
مثل أسلافها ، تتوفر VEO 3 لأعضاء مستويات الاشتراك في Google ، والتي تبدأ من 249.99 دولارًا في الشهر. لإنشاء مقطع مدته ثماني ثوانٍ ، يدخل المستخدمون موجه نص يصف المشهد الذي يرغبون في إنشاؤه في تدفق أداة صناعة الأفلام من Google أو الجوزاء أو غيرها من منصات Google. يكلف كل جيل VEO 3 ما لا يقل عن 20 ساعة معتمدة من الذكاء الاصطناعي ، ويمكن تصدرت الحساب بتكلفة 25 دولارًا لكل 2500 ساعة معتمدة.
تقول منى فايس ، المديرة الإبداعية الإعلانية ، إن تجديد مشاهدها في محاولة للتخلص من التسميات التوضيحية العشوائية أصبحت باهظة الثمن. وتقول: “إذا كنت تقوم بإنشاء مشهد مع الحوار ، فإن ما يصل إلى 40 ٪ من إنتاجه لديه ترجمات رطبة تجعله غير قابل للاستخدام”. “أنت تحترق من المال في محاولة للحصول على مشهد تريده ، ولكن بعد ذلك لا يمكنك استخدامه.”
عندما أبلغت Weiss عن مشكلة Google Labs من خلال قناة Discord الخاصة بها على أمل الحصول على استرداد اعتماداتها الضائعة ، أشار فريقها إلى فريق الدعم الرسمي للشركة. لقد قدموا لها استردادًا لتكلفة VEO 3 ، ولكن ليس للائتمانات. رفض فايس ، لأن القبول كان يعني فقدان الوصول إلى النموذج تمامًا. يخبر فريق دعم Discord الخاص بـ Google Labs المستخدمين أنه يمكن تشغيل الترجمة عن طريق الكلام ، قائلين إنهم على دراية بالمشكلة ويعملون على إصلاحه.
فلماذا يصر VEO 3 على إضافة هذه الترجمات ، ولماذا يبدو من الصعب للغاية حل المشكلة؟ ربما يتعلق الأمر بما تم تدريبه على النموذج.
على الرغم من أن Google لم تعرض هذه المعلومات العامة ، فمن المحتمل أن تتضمن بيانات التدريب مقاطع فيديو على YouTube ، ومقاطع من مدونة الفيديو وقنوات الألعاب ، وتعديلات Tiktok ، والتي تأتي العديد منها مع ترجمات. يقول Shuo NIU ، أستاذ مساعد في جامعة كلارك في ماساتشوستس الذين يدرسون منصات مشاركة الفيديو و AI ، إن هذه الترجمات المدمجة هي جزء من إطارات الفيديو بدلاً من أن تكون مسارات النص المنفصلة في الأعلى ، مما يعني أنه من الصعب إزالتها قبل استخدامها للتدريب.
يقول: “يتم تدريب نموذج النص إلى الفيديو باستخدام التعلم التعزيز لإنتاج محتوى يحاكي مقاطع الفيديو التي أنشأها الإنسان ، وإذا كانت مقاطع الفيديو هذه تتضمن ترجمات ، فقد يتعلم النموذج أن دمج الترجمة يعزز التشابه مع المحتوى الذي تم إنشاؤه البشري”.
يقول متحدث باسم Google: “نحن نعمل باستمرار على تحسين إنشاء الفيديو ، خاصةً مع النص والكلام الذي يبدو طبيعيًا ، والصوت الذي يتزامن تمامًا”. “نشجع المستخدمين على تجربة مطالبةهم مرة أخرى إذا لاحظوا عدم تناسق ومنحنا ملاحظات باستخدام خيار الإبهام لأعلى/لأسفل.”
أما لماذا يتجاهل النموذج تعليمات مثل “لا ترجمات” ، فإن المطالبات السلبية (إخبار نموذج الذكاء الاصطناعي التوليدي لا يقول Tuhin Chakrabarty ، أستاذ مساعد في جامعة ستوني بروك يدرس أنظمة الذكاء الاصطناعي ، لفعل شيء ما) ، عادة ما يكون أقل فعالية من الأنواع الإيجابية.
ولإصلاح المشكلة ، سيتعين على Google التحقق من كل إطار من كل مقطع فيديو تم تدريبه على VEO 3 ، وإما التخلص من أو إعادة توحيد التسميات التوضيحية قبل إعادة تدريب النموذج – وهو مسعى سيستغرق أسابيع ، كما يقول.
تعتقد Katerina Cizek ، صانع الأفلام الوثائقية والمدير الفني في MIT Open Mostriank Lab ، أن المشكلة تجسد رغبة Google في إطلاق المنتجات قبل أن تكون جاهزة تمامًا.
“احتاجت Google إلى فوز” ، كما تقول. “لقد احتاجوا إلى أن يكونوا أول من يضخ أداة توليد صوت متزامن للشفاه. وهذا كان أكثر أهمية من إصلاح مشكلة الترجمة الخاصة بهم.”