من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

بمجرد أن أطلقت Google أحدث طراز من الذكاء الاصطناعى المولدة للفيديو في نهاية شهر مايو ، هرع التصميمات لوضعه في خطواته. تم إصدارها بعد أشهر قليلة من سلفها ،”https://www.technologyreview.com/2025/05/21/1117251/by-putting-ai-into-everything-google-wants-to-make-it-invisible/”> VEO 3 يسمح للمستخدمين بإنشاء الأصوات والحوار لأول مرة ، مما يثير موجة من مقاطع واقعية ثماني ثوانٍ تم تخفيفها معًا في إعلانات ، ومقاطع فيديو ASMR ، ومقطورات الأفلام المتخيلة ، ومقابلات الفكاهة في الشوارع. استخدم المخرج دارين آرونوفسكي المخرج الذي حصل عليه الأوسكار الأداة لإنشاء فيلم قصير يسمى Ancestra. خلال”https://techcrunch.com/2025/05/20/googles-veo-3-can-generate-videos-and-soundtracks-to-go-along-with-them/”> الصحافة الإحاطة، شبّت Demis Hassabis ، الرئيس التنفيذي لشركة Google Deepmind ، القفزة إلى الأمام بـ “الخروج من العصر الصامت لتوليد الفيديو”.

لكن الآخرين”https://www.reddit.com/r/Bard/comments/1kwnvlr/how_do_i_stop_the_weird_veo_3_subtitles/”> بسرعة وجدت هذا في بعض النواحي”https://www.reddit.com/r/Bard/comments/1kvwn02/the_subtitles_are_messing_veo_3_outputs/”> الأداة لم يكن يتصرف كما هو متوقع. عندما يولد مقاطع تتضمن الحوار ، غالبًا ما يضيف Veo 3 ترجمات غير منطقية ومشتتة ، حتى عندما يتم تقديم المطالبات التي تم إعطاؤها بشكل صريح ، لا تتم إضافة أي تعليق أو ترجمات.

التخلص منهم ليس واضحًا – أو رخيصًا. أُجبر المستخدمون على اللجوء إلى مقاطع تجديد (التي تكلفهم المزيد من المال) ، أو باستخدام أدوات إعادة الترجمة الخارجية ، أو اقتصاص مقاطع الفيديو الخاصة بهم للتخلص من الترجمة تمامًا.

جوش وودوارد ، نائب رئيس Google Labs و Gemini ،”https://x.com/joshwoodward/status/1932140453153091787″> نشر في X في 9 يونيو ، قامت Google بتطوير إصلاحات لتقليل نص الرطوبة. ولكن بعد أكثر من شهر ، المستخدمون”https://discord.com/channels/1172568727942860810/1391508452991307926″> لا يزال قطع الأشجار القضايا معها في Google Labs ‘”https://discord.com/channels/1172568727942860810/1392866811233570958″> قناة Discord، إظهار مدى صعوبة تصحيح المشكلات في نماذج الذكاء الاصطناعى الرئيسية.

مثل أسلافها ، تتوفر VEO 3 لأعضاء مستويات الاشتراك في Google ، والتي تبدأ من 249.99 دولارًا في الشهر. لإنشاء مقطع مدته ثماني ثوانٍ ، يدخل المستخدمون موجه نص يصف المشهد الذي يرغبون في إنشاؤه في تدفق أداة صناعة الأفلام من Google أو الجوزاء أو غيرها من منصات Google. يكلف كل جيل VEO 3 ما لا يقل عن 20 ساعة معتمدة من الذكاء الاصطناعي ، ويمكن تصدرت الحساب بتكلفة 25 دولارًا لكل 2500 ساعة معتمدة.

تقول منى فايس ، المديرة الإبداعية الإعلانية ، إن تجديد مشاهدها في محاولة للتخلص من التسميات التوضيحية العشوائية أصبحت باهظة الثمن. وتقول: “إذا كنت تقوم بإنشاء مشهد مع الحوار ، فإن ما يصل إلى 40 ٪ من إنتاجه لديه ترجمات رطبة تجعله غير قابل للاستخدام”. “أنت تحترق من المال في محاولة للحصول على مشهد تريده ، ولكن بعد ذلك لا يمكنك استخدامه.”

عندما أبلغت Weiss عن مشكلة Google Labs من خلال قناة Discord الخاصة بها على أمل الحصول على استرداد اعتماداتها الضائعة ، أشار فريقها إلى فريق الدعم الرسمي للشركة. لقد قدموا لها استردادًا لتكلفة VEO 3 ، ولكن ليس للائتمانات. رفض فايس ، لأن القبول كان يعني فقدان الوصول إلى النموذج تمامًا. يخبر فريق دعم Discord الخاص بـ Google Labs المستخدمين أنه يمكن تشغيل الترجمة عن طريق الكلام ، قائلين إنهم على دراية بالمشكلة ويعملون على إصلاحه.

فلماذا يصر VEO 3 على إضافة هذه الترجمات ، ولماذا يبدو من الصعب للغاية حل المشكلة؟ ربما يتعلق الأمر بما تم تدريبه على النموذج.

على الرغم من أن Google لم تعرض هذه المعلومات العامة ، فمن المحتمل أن تتضمن بيانات التدريب مقاطع فيديو على YouTube ، ومقاطع من مدونة الفيديو وقنوات الألعاب ، وتعديلات Tiktok ، والتي تأتي العديد منها مع ترجمات. يقول Shuo NIU ، أستاذ مساعد في جامعة كلارك في ماساتشوستس الذين يدرسون منصات مشاركة الفيديو و AI ، إن هذه الترجمات المدمجة هي جزء من إطارات الفيديو بدلاً من أن تكون مسارات النص المنفصلة في الأعلى ، مما يعني أنه من الصعب إزالتها قبل استخدامها للتدريب.

يقول: “يتم تدريب نموذج النص إلى الفيديو باستخدام التعلم التعزيز لإنتاج محتوى يحاكي مقاطع الفيديو التي أنشأها الإنسان ، وإذا كانت مقاطع الفيديو هذه تتضمن ترجمات ، فقد يتعلم النموذج أن دمج الترجمة يعزز التشابه مع المحتوى الذي تم إنشاؤه البشري”.

يقول متحدث باسم Google: “نحن نعمل باستمرار على تحسين إنشاء الفيديو ، خاصةً مع النص والكلام الذي يبدو طبيعيًا ، والصوت الذي يتزامن تمامًا”. “نشجع المستخدمين على تجربة مطالبةهم مرة أخرى إذا لاحظوا عدم تناسق ومنحنا ملاحظات باستخدام خيار الإبهام لأعلى/لأسفل.”

أما لماذا يتجاهل النموذج تعليمات مثل “لا ترجمات” ، فإن المطالبات السلبية (إخبار نموذج الذكاء الاصطناعي التوليدي لا يقول Tuhin Chakrabarty ، أستاذ مساعد في جامعة ستوني بروك يدرس أنظمة الذكاء الاصطناعي ، لفعل شيء ما) ، عادة ما يكون أقل فعالية من الأنواع الإيجابية.

ولإصلاح المشكلة ، سيتعين على Google التحقق من كل إطار من كل مقطع فيديو تم تدريبه على VEO 3 ، وإما التخلص من أو إعادة توحيد التسميات التوضيحية قبل إعادة تدريب النموذج – وهو مسعى سيستغرق أسابيع ، كما يقول.

تعتقد Katerina Cizek ، صانع الأفلام الوثائقية والمدير الفني في MIT Open Mostriank Lab ، أن المشكلة تجسد رغبة Google في إطلاق المنتجات قبل أن تكون جاهزة تمامًا.

“احتاجت Google إلى فوز” ، كما تقول. “لقد احتاجوا إلى أن يكونوا أول من يضخ أداة توليد صوت متزامن للشفاه. وهذا كان أكثر أهمية من إصلاح مشكلة الترجمة الخاصة بهم.”

اقرأ المزيد

يمكن للمعلنين Google الآن تنشيط تغييرات الحملة عبر Gmail
يمكن اختطاف Google Gemini لعرض ملخصات بريد إلكتروني مزيفة في عمليات الاحتيال الخاد

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل