يبشر Gemini 2.0 Flash بعصر جديد من الذكاء الاصطناعي متعدد الوسائط في الوقت الفعلي

13 ديسمبر 2024 الساعة 9:04 صباحًا

حقوق الصورة: VentureBeat عبر ChatGPT

“content”>

انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> اعرف المزيد

إصدار جوجل ل”https://venturebeat.com/ai/google-gemini-2-0-could-this-be-the-beginning-of-truly-autonomous-ai/”> الجوزاء 2.0 فلاش هذا الأسبوع، التي تقدم للمستخدمين طريقة للتفاعل المباشر مع مقاطع الفيديو المحيطة بهم، مهدت الطريق لما يمكن أن يكون تحولًا محوريًا في كيفية تفاعل الشركات والمستهلكين مع التكنولوجيا.

يعد هذا الإصدار – جنبًا إلى جنب مع إعلانات OpenAI وMicrosoft وغيرهما – جزءًا من قفزة تحويلية للأمام تحدث في مجال التكنولوجيا تسمى “الذكاء الاصطناعي متعدد الوسائط”. تسمح لك هذه التقنية بالتقاط مقاطع فيديو – أو صوت أو صور – تصل إلى جهاز الكمبيوتر أو الهاتف الخاص بك، وطرح الأسئلة حول هذا الموضوع.

كما أنه يشير إلى اشتداد السباق التنافسي بين جوجل ومنافسيها الرئيسيين – OpenAI وMicrosoft – للهيمنة على قدرات الذكاء الاصطناعي. ولكن الأهم من ذلك، أنها تبدو وكأنها تحدد الحقبة القادمة من الحوسبة التفاعلية والفاعلة.

هذه اللحظة في الذكاء الاصطناعي تبدو لي وكأنها “لحظة iPhone”، وبهذا أشير إلى الفترة 2007-2008 عندما أصدرت شركة Apple جهاز iPhone الذي، من خلال الاتصال بالإنترنت وواجهة المستخدم الرائعة، أدى إلى تحويل الحياة اليومية من خلال منح الناس تجربة كمبيوتر قوي في جيوبهم.

في حين أن ChatGPT من OpenAI ربما يكون قد أطلق أحدث لحظة للذكاء الاصطناعي باستخدام برنامج الدردشة الآلي القوي الشبيه بالإنسان في نوفمبر 2022، فإن إصدار Google هنا في نهاية عام 2024 يبدو وكأنه استمرار رئيسي لتلك اللحظة – في وقت كان الكثير من المراقبين يشعرون بالقلق. حول التباطؤ المحتمل في تحسينات تكنولوجيا الذكاء الاصطناعي.

Gemini 2.0 Flash: المحفز لثورة الذكاء الاصطناعي المتعددة الوسائط

يوفر برنامج Gemini 2.0 Flash من Google وظائف رائدة، مما يسمح بالتفاعل في الوقت الفعلي مع مقاطع الفيديو التي يتم التقاطها عبر الهاتف الذكي. وخلافًا للعروض التوضيحية التي تم تنظيمها مسبقًا (مثل مشروع Google Astra في مايو)، أصبحت هذه التكنولوجيا متاحة الآن للمستخدمين العاديين من خلال”http://aistudio.google.com/live”> استوديو جوجل للذكاء الاصطناعي.

أنا أشجعك على تجربتها بنفسك. لقد استخدمته لعرض محيطي والتفاعل معه – والذي كان بالنسبة لي هذا الصباح مطبخي وغرفة طعامي. يمكنك أن ترى على الفور كيف يقدم هذا اختراقات في التعليم وحالات الاستخدام الأخرى. يمكنك أن ترى لماذا قام منشئ المحتوى جيرود ليو”https://twitter.com/jerrod_lew/status/1867220062865920095″ الهدف=”_blank” rel=”noreferrer noopener”> رد فعل على X أمس بدهشة عندما استخدم Gemini 2.0 Realtime AI لتحرير مقطع فيديو في Adobe Premiere Pro. وقال: “هذا جنون تمامًا”، بعد أن أرشدته Google في غضون ثوانٍ حول كيفية إضافة تأثير التمويه الأساسي على الرغم من أنه كان مستخدمًا مبتدئًا.

تم منح Sam Witteveen، أحد مطوري الذكاء الاصطناعي البارزين والمؤسس المشارك لشركة Red Dragon AI، إمكانية الوصول المبكر لاختبار Gemini 2.0 Flash، وشدد على أن سرعة Gemini Flash – فهي أسرع مرتين من سرعة Google الرئيسية حتى الآن، Gemini 1.5 Pro – و”بجنون” إن التسعير الرخيص لا يجعله مجرد واجهة عرض للمطورين لاختبار المنتجات الجديدة، ولكنه أداة عملية للمؤسسات التي تدير ميزانيات الذكاء الاصطناعي. (لكي نكون واضحين، لم تعلن Google فعليًا عن أسعار Gemini 2.0 Flash حتى الآن. إنها معاينة مجانية. لكن Witteveen يعتمد في افتراضاته على السابقة التي حددتها سلسلة Gemini 1.5 من Google.)

بالنسبة للمطورين، توفر واجهة برمجة التطبيقات المباشرة لهذه الميزات المباشرة متعددة الوسائط إمكانات كبيرة، لأنها تتيح التكامل السلس في التطبيقات. واجهة برمجة التطبيقات هذه متاحة أيضًا للاستخدام؛ أ”https://github.com/google-gemini/multimodal-live-api-web-console”> التطبيق التجريبي متاح. هنا هو”https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/”> مشاركة مدونة Google للمطورين.

مبرمج سيمون ويليسون”https://simonwillison.net/2024/Dec/11/gemini-2/”> يسمى واجهة برمجة التطبيقات المتدفقة من المستوى التالي: “هذه الأشياء مستوحاة مباشرة من الخيال العلمي: إن القدرة على إجراء محادثة صوتية مع طالب ماجستير في القانون حول الأشياء التي يمكنه “رؤيتها” من خلال الكاميرا هي إحدى لحظات “نحن نعيش في المستقبل”.” وأشار إلى الطريقة التي تطلب بها واجهة برمجة التطبيقات (API) تمكين وضع تنفيذ التعليمات البرمجية، والذي يسمح للنماذج بكتابة كود بايثون وتشغيله واعتبار النتيجة جزءًا من استجابتها – وكل ذلك جزء من مستقبل الوكيل.

من الواضح أن هذه التكنولوجيا هي نذير للنظم الإيكولوجية للتطبيقات الجديدة وتوقعات المستخدم. تخيل أنك قادر على تحليل الفيديو المباشر أثناء العرض التقديمي، أو اقتراح التعديلات، أو استكشاف الأخطاء وإصلاحها في الوقت الفعلي.

نعم، تعتبر هذه التكنولوجيا رائعة بالنسبة للمستهلكين، ولكن من المهم لمستخدمي المؤسسات والقادة أن يستوعبوها أيضًا. تمثل الميزات الجديدة الأساس لطريقة جديدة تمامًا للعمل والتفاعل مع التكنولوجيا – مما يشير إلى مكاسب الإنتاجية القادمة وسير العمل الإبداعي.

المشهد التنافسي: سباق لتحديد المستقبل

يأتي إصدار Google Gemini 2.0 Flash يوم الأربعاء وسط موجة من الإصدارات من Google ومن قبل منافسيها الرئيسيين، الذين يسارعون إلى شحن أحدث تقنياتهم بحلول نهاية العام. تعد جميعها بتقديم إمكانات متعددة الوسائط جاهزة للمستهلك – التفاعل المباشر عبر الفيديو، وتوليد الصور، وتركيب الصوت – ولكن بعضها ليس مكتملًا بالكامل أو حتى متاحًا بالكامل.

أحد أسباب الاندفاع هو أن بعض هذه الشركات تقدم لموظفيها مكافآت لتسليم المنتجات الرئيسية قبل نهاية العام. آخر هو حقوق المفاخرة عندما يحصلون على ميزات جديدة أولاً. يمكنهم الحصول على جذب كبير من المستخدمين من خلال كونهم الأول، كما أظهرت OpenAI في عام 2022، عندما أصبح ChatGPT الخاص بها المنتج الاستهلاكي الأسرع نموًا في التاريخ. وعلى الرغم من أن جوجل كانت لديها تكنولوجيا مماثلة، إلا أنها لم تكن مستعدة لإصدار عام، وبقيت على حالها. وانتقد المراقبون شركة جوجل بشدة منذ ذلك الحين لكونها بطيئة للغاية.

وإليك ما أعلنته الشركات الأخرى في الأيام القليلة الماضية، وكلها تساعد في تقديم هذا العصر الجديد من الذكاء الاصطناعي متعدد الوسائط.

وضع الصوت المتقدم مع الرؤية في OpenAI: تم إطلاقه بالأمس ولكن لا يزال قيد التنفيذ”https://venturebeat.com/ai/chatgpt-gets-screensharing-and-real-time-video-analysis-rivaling-gemini-2/”> يقدم ميزات مثل تحليل الفيديو في الوقت الفعلي ومشاركة الشاشة. ورغم أن قضايا الوصول المبكر كانت واعدة، فقد حدت من تأثيرها المباشر. على سبيل المثال، لم أتمكن من الوصول إليه حتى الآن على الرغم من أنني مشترك في Plus.
رؤية مساعد الطيار من مايكروسوفت: الأسبوع الماضي،”https://venturebeat.com/ai/microsoft-copilot-vision-is-here-letting-ai-see-what-you-do-online/”>أطلقت Microsoft تقنية مماثلة في المعاينة – فقط لمجموعة مختارة من مستخدميها المحترفين. يشير تصميمه المدمج في المتصفح إلى تطبيقات المؤسسات ولكنه يفتقر إلى الصقل وإمكانية الوصول إلى Gemini 2.0. أصدرت مايكروسوفت أيضًا أ”https://venturebeat.com/ai/microsofts-smaller-ai-model-beats-the-big-guys-meet-phi-4-the-efficiency-king/”>نموذج Phi-4 سريع وقوي للإقلاع.
الأنثروبي كلود 3.5 هايكو: الأنثروبي، حتى الآن في سباق ساخن لقيادة نموذج اللغة الكبيرة (LLM) مع OpenAI، لم يقدم أي شيء على أنه متطور على الجانب متعدد الوسائط. لقد فعلت ذلك للتو”https://venturebeat.com/ai/claude-3-5-haiku-chatbot-now-generally-available/”>الإصدار 3.5 هايكو، يتميز بالكفاءة والسرعة. لكن تركيزها على خفض التكلفة وأحجام النماذج الأصغر يتناقض مع الميزات التي تجاوزت الحدود في أحدث إصدار من Google، وتلك الخاصة بوضع الصوت مع الرؤية في OpenAI.

التغلب على التحديات واغتنام الفرص

ورغم أن هذه التقنيات ثورية، إلا أن التحديات لا تزال قائمة:

إمكانية الوصول وقابلية التوسع: واجهت OpenAI وMicrosoft اختناقات في عملية الطرح، ويجب على Google التأكد من أنها تتجنب مخاطر مماثلة. أشارت جوجل إلى أن ميزة البث المباشر الخاصة بها (Project Astra) لها حد للذاكرة السياقية قدره”https://venturebeat.com/ai/google-gemini-2-0-could-this-be-the-beginning-of-truly-autonomous-ai/”>ما يصل إلى 10 دقائق من الذاكرة أثناء الجلسة، على الرغم من أنه من المرجح أن يزيد مع مرور الوقت.
الخصوصية والأمان: تحتاج أنظمة الذكاء الاصطناعي التي تحلل الفيديو أو البيانات الشخصية في الوقت الفعلي إلى ضمانات قوية للحفاظ على الثقة. يحتوي نموذج Gemini 2.0 Flash من Google على ميزة إنشاء الصور الأصلية، وإمكانية الوصول إلى واجهات برمجة التطبيقات التابعة لجهات خارجية، والقدرة على النقر على بحث Google وتنفيذ التعليمات البرمجية. كل هذا قوي، ولكنه يمكن أن يجعل من السهل بشكل خطير على شخص ما أن ينشر معلومات خاصة عن طريق الخطأ أثناء التلاعب بهذه الأشياء.
تكامل النظام البيئي: بينما تستفيد Microsoft من مجموعة المؤسسات الخاصة بها وترسيخ Google نفسها في Chrome، يبقى السؤال: ما النظام الأساسي الذي يوفر التجربة الأكثر سلاسة للمؤسسات؟

ومع ذلك، فإن الفوائد المحتملة للتكنولوجيا تتغلب على كل هذه العقبات، وليس هناك شك في أن المطورين وشركات المشاريع سوف يسارعون إلى تبنيها خلال العام المقبل.

الخلاصة: فجر جديد تقوده جوجل حاليًا

كمطور سام ويتفين وأنا”https://www.youtube.com/watch?v=hk5x8JKT2o8″> ناقش في البودكاست الخاص بنا تم تسجيل Gemini 2.0 Flash ليلة الأربعاء بعد إعلان Google، وهو إصدار مثير للإعجاب حقًا، ويمثل اللحظة التي أصبح فيها الذكاء الاصطناعي متعدد الوسائط حقيقة. لقد وضعت التطورات التي حققتها Google معيارًا جديدًا، على الرغم من أن هذه الميزة قد تكون عابرة للغاية. OpenAI وMicrosoft ساخنان على ذيلهما. ما زلنا في وقت مبكر جدًا من هذه الثورة، تمامًا كما حدث في عام 2008، عندما على الرغم من إصدار iPhone، لم يكن من الواضح كيف ستستجيب Google وNokia وRIM. أظهر التاريخ أن Nokia و RIM لم يفعلوا ذلك، وماتوا. لقد استجابت Google بشكل جيد حقًا، وأعطت iPhone فرصة تشغيل.

وبالمثل، من الواضح أن Microsoft وOpenAI يتنافسان بقوة في هذا السباق مع Google. وفي الوقت نفسه، قررت شركة Apple الدخول في شراكة في هذه التكنولوجيا، وأعلنت هذا الأسبوع عن مزيد من التكامل مع ChatGPT – لكنها بالتأكيد لا تحاول الفوز بشكل مباشر في هذا العصر الجديد من العروض متعددة الوسائط.

في البودكاست الخاص بنا، نغطي أنا وسام أيضًا الميزة الإستراتيجية الخاصة التي تتمتع بها Google حول منطقة المتصفح. على سبيل المثال، يتيح لك إصدار Project Mariner، وهو امتداد Chrome، القيام بمهام تصفح الويب في العالم الحقيقي بوظائف أكثر من التقنيات المنافسة التي تقدمها Anthropic (وتسمى”https://venturebeat.com/ai/anthropic-new-ai-can-use-computers-like-a-human-redefining-automation-for-enterprises/”> استخدام الكمبيوتر) ومايكروسوفت”https://venturebeat.com/ai/microsofts-agentic-ai-tool-omniparser-rockets-up-the-open-source-charts/”> OmniParser (لا يزال قيد البحث). (صحيح أن ميزة Anthropic تمنحك وصولاً أكبر إلى الموارد المحلية لجهاز الكمبيوتر الخاص بك). كل هذا يمنح Google السبق في السباق لدفع تقنيات الذكاء الاصطناعي الوكيل إلى الأمام في عام 2005 أيضًا، حتى لو بدت Microsoft وكأنها”https://venturebeat.com/ai/microsoft-quietly-assembles-the-largest-ai-agent-ecosystem-and-no-one-else-is-close/”> المضي قدمًا في جانب التنفيذ الفعلي لتقديم حلول وكيلة للمؤسسات. يقوم وكلاء الذكاء الاصطناعي بمهام معقدة بشكل مستقل، مع الحد الأدنى من التدخل البشري – على سبيل المثال، سوف يقومون قريبًا بمهام بحثية متقدمة وفحص قواعد البيانات قبل إجراء التجارة الإلكترونية أو تداول الأسهم أو حتى شراء العقارات.

إن تركيز Google على إتاحة إمكانيات Gemini 2.0 هذه لكل من المطورين والمستهلكين يعد أمرًا ذكيًا، لأنه يضمن تعاملها مع الصناعة من خلال خطة شاملة. حتى الآن، عانت جوجل من سمعة عدم تركيزها بقوة على المطورين مثل مايكروسوفت.

والسؤال المطروح على صناع القرار ليس ما إذا كان عليهم اعتماد هذه الأدوات أم لا، بل مدى سرعة دمجها في سير العمل. سيكون من الرائع أن نرى إلى أين يأخذنا العام المقبل. تأكد من الاستماع إلى نصائحنا لمستخدمي المؤسسات في الفيديو أدناه:

رؤى يومية حول حالات استخدام الأعمال باستخدام VB Daily

إذا كنت ترغب في إثارة إعجاب رئيسك في العمل، فإن VB Daily يلبي احتياجاتك. نحن نقدم لك السبق الصحفي الداخلي حول ما تفعله الشركات باستخدام الذكاء الاصطناعي التوليدي، بدءًا من التحولات التنظيمية وحتى عمليات النشر العملية، حتى تتمكن من مشاركة الرؤى لتحقيق أقصى عائد على الاستثمار.

اقرأ لدينا”http://venturebeat.com/terms-of-service/”>سياسة الخصوصية

شكرا للاشتراك. تحقق من المزيد”http://venturebeat.com/newsletters/”> النشرات الإخبارية لـ VB هنا.

حدث خطأ.

اقرأ المزيد

يبشر Gemini 2.0 Flash بعصر جديد من الذكاء الاصطناعي متعدد الوسائط في الوقت الفعلي

Gemini 2.0 Flash: المحفز لثورة الذكاء الاصطناعي المتعددة الوسائط

المشهد التنافسي: سباق لتحديد المستقبل

التغلب على التحديات واغتنام الفرص

الخلاصة: فجر جديد تقوده جوجل حاليًا

Reactions

ردود الفعل