يفتح Google DeepMind آفاقًا جديدة باستخدام "Mirasol3B" لتحليل الفيديو المتقدم

15 نوفمبر 2023 الساعة 4:23 مساءً

الائتمان: VentureBeat مصنوع من Midjourney

هل أنت مستعد لجلب المزيد من الوعي لعلامتك التجارية؟ فكر في أن تصبح راعيًا لجولة AI Impact Tour. تعرف على المزيد حول الفرص هنا.

جوجل ديب مايند كشفوا بهدوء عن تقدم كبير في ذكائهم الاصطناعي (منظمة العفو الدولية) بحث يوم الثلاثاء، حيث يقدم نموذجًا انحداريًا جديدًا يهدف إلى تحسين فهم مدخلات الفيديو الطويلة.

الموديل الجديد اسمه “ميراسول 3 ب“، يوضح نهجًا رائدًا للتعلم متعدد الوسائط، ومعالجة بيانات الصوت والفيديو والنص بطريقة أكثر تكاملاً وكفاءة.

وفقًا لإسحاق نوبل، مهندس البرمجيات في شركة جوجل للأبحاث، وأنيليا أنجيلوفا، عالمة الأبحاث في شركة جوجل ديب مايند، والتي شاركت في كتابة بحث طويل مشاركة مدونة وفيما يتعلق بأبحاثهم، فإن التحدي المتمثل في بناء نماذج متعددة الوسائط يكمن في عدم تجانس الطرائق.

ويوضحون أن “بعض الطرائق قد تكون متزامنة بشكل جيد مع الوقت (على سبيل المثال، الصوت والفيديو) ولكنها لا تتماشى مع النص”. “علاوة على ذلك، فإن الحجم الكبير من البيانات في إشارات الفيديو والصوت أكبر بكثير من ذلك الموجود في النص، لذلك عند دمجها في نماذج متعددة الوسائط، غالبًا لا يمكن استهلاك الفيديو والصوت بالكامل ويلزم ضغطهما بشكل غير متناسب. وتتفاقم هذه المشكلة عند إدخال مقاطع فيديو أطول.

حدث VB

جولة تأثير الذكاء الاصطناعي

تواصل مع مجتمع الذكاء الاصطناعي للمؤسسة في جولة تأثير الذكاء الاصطناعي الخاصة بـ VentureBeat القادمة إلى مدينة قريبة منك!

يتعلم أكثر

نهج جديد للتعلم متعدد الوسائط

استجابة لهذا التعقيد، يقوم نموذج Google Mirasol3B بفصل النمذجة متعددة الوسائط إلى نماذج انحدار ذاتي منفصلة ومركزة، ومعالجة المدخلات وفقًا لخصائص الطرائق.

“يتكون نموذجنا من مكون انحداري تلقائي للطرائق المتزامنة مع الوقت (الصوت والفيديو) ومكون انحداري منفصل للطرائق التي ليست بالضرورة محاذية للوقت ولكنها لا تزال متسلسلة، على سبيل المثال، مدخلات النص، مثل العنوان أو الوصف، “يشرح نوبل وأنجيلوفا.

ويأتي هذا الإعلان في الوقت الذي تسعى فيه صناعة التكنولوجيا جاهدة لتسخير قوة الذكاء الاصطناعي لتحليل وفهم كميات هائلة من البيانات عبر تنسيقات مختلفة. ويمثل Mirasol3B من Google خطوة هامة إلى الأمام في هذا المسعى، حيث يفتح إمكانيات جديدة لتطبيقات مثل الإجابة على أسئلة الفيديو وضمان جودة الفيديو الطويل.

الائتمان: أبحاث جوجل

التطبيقات المحتملة لليوتيوب

أحد التطبيقات الممكنة للنموذج الذي قد تستكشفه جوجل هو استخدامه على موقع يوتيوب، وهو أكبر منصة فيديو عبر الإنترنت في العالم وأحد منصات الشركة. المصادر الرئيسية للإيرادات.

يمكن استخدام النموذج نظريًا لتعزيز تجربة المستخدم ومشاركته من خلال توفير المزيد من الميزات والوظائف متعددة الوسائط، مثل إنشاء التسميات التوضيحية والملخصات لمقاطع الفيديو، والإجابة على الأسئلة وتقديم التعليقات، وإنشاء توصيات وإعلانات مخصصة، وتمكين المستخدمين من إنشاء وتحرير إعلاناتهم. مقاطع الفيديو الخاصة باستخدام المدخلات والمخرجات متعددة الوسائط.

على سبيل المثال، يمكن للنموذج إنشاء تسميات توضيحية وملخصات لمقاطع الفيديو استنادًا إلى المحتوى المرئي والصوتي، والسماح للمستخدمين بالبحث عن مقاطع الفيديو وتصفيتها حسب الكلمات الرئيسية أو المواضيع أو المشاعر. وقد يؤدي ذلك إلى تحسين إمكانية الوصول إلى مقاطع الفيديو وإمكانية اكتشافها، ومساعدة المستخدمين في العثور على المحتوى الذي يبحثون عنه بسهولة وسرعة أكبر.

يمكن أيضًا استخدام النموذج نظريًا للإجابة على الأسئلة وتقديم التعليقات للمستخدمين بناءً على محتوى الفيديو، مثل شرح معنى المصطلح، أو توفير معلومات أو موارد إضافية، أو اقتراح مقاطع فيديو أو قوائم تشغيل ذات صلة.

وقد أثار هذا الإعلان الكثير من الاهتمام والإثارة في مجتمع الذكاء الاصطناعي، فضلاً عن بعض الشكوك والانتقادات. وقد أشاد بعض الخبراء بالنموذج لتعدد استخداماته وقابلية التوسع، وأعربوا عن آمالهم في تطبيقاته المحتملة في مختلف المجالات.

على سبيل المثال، ليو ترونشون، مهندس أبحاث تعلم الآلة في Hugging Face، غرد: “من المثير جدًا رؤية نماذج مثل Mirasol تتضمن المزيد من الأساليب. لا يوجد العديد من النماذج القوية في العلن والتي تستخدم الصوت والفيديو حتى الآن. سيكون من المفيد حقا أن يكون عليه [Hugging Face]”.

غوتام شاردا، طالب علوم الكمبيوتر في جامعة أيوا، غرد: “يبدو أنه لا يوجد كود أو أوزان نموذجية أو بيانات تدريب أو حتى واجهة برمجة تطبيقات. ولم لا؟ أود أن أراهم يطلقون فعليًا شيئًا يتجاوز مجرد ورقة بحثية؟

معلم مهم لمستقبل الذكاء الاصطناعي

ويمثل هذا الإعلان علامة فارقة هامة في مجال الذكاء الاصطناعي والتعلم الآلي، ويظهر طموح جوجل وريادتها في تطوير التقنيات المتطورة التي يمكنها تعزيز حياة البشر وتحويلها.

ومع ذلك، فإنه يشكل أيضًا تحديًا وفرصة للباحثين والمطورين والمنظمين ومستخدمي الذكاء الاصطناعي، الذين يحتاجون إلى التأكد من توافق النموذج وتطبيقاته مع القيم والمعايير الأخلاقية والاجتماعية والبيئية للمجتمع.

نظرًا لأن العالم أصبح أكثر تعدد الوسائط وترابطًا، فمن الضروري تعزيز ثقافة التعاون والابتكار والمسؤولية بين أصحاب المصلحة والجمهور، وإنشاء نظام بيئي أكثر شمولاً وتنوعًا للذكاء الاصطناعي يمكن أن يفيد الجميع.

مهمة VentureBeat هو أن تكون ساحة مدينة رقمية لصانعي القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف ملخصاتنا.

اقرأ أكثر

يفتح Google DeepMind آفاقًا جديدة باستخدام “Mirasol3B” لتحليل الفيديو المتقدم

حدث VB

نهج جديد للتعلم متعدد الوسائط

التطبيقات المحتملة لليوتيوب

معلم مهم لمستقبل الذكاء الاصطناعي

Reactions

ردود الفعل