يحاول Google Gemini AI التفوق على ChatGPT بمهارات الصور والفيديو

يستفيد هاتف Google Pixel 8 وبرنامج الدردشة Bard AI من التحديث الرئيسي الثالث للذكاء الاصطناعي للشركة هذا العام.

ستيفن شانكلاند الكاتب الرئيسي

يعمل ستيفن شانكلاند مراسلًا في CNET منذ عام 1998 ويكتب عن المعالجات والتصوير الرقمي والذكاء الاصطناعي والحوسبة الكمومية وعلوم الكمبيوتر وعلوم المواد وأجهزة الكمبيوتر العملاقة والطائرات بدون طيار والمتصفحات والطباعة ثلاثية الأبعاد وUSB وتكنولوجيا الحوسبة الجديدة بشكل عام. لديه نقطة ضعف في قلبه تجاه مجموعات المعايير وواجهات الإدخال/الإخراج. أول خبر صحفي كبير له كان عن براز القطط المشع.

خبرة المعالجات، أشباه الموصلات، متصفحات الويب، الحوسبة الكمومية، أجهزة الكمبيوتر العملاقة، الذكاء الاصطناعي، الطباعة ثلاثية الأبعاد، الطائرات بدون طيار، علوم الكمبيوتر، الفيزياء، البرمجة، علم المواد، USB، UWB، أندرويد، التصوير الرقمي، العلوم أوراق اعتماد

لقد قمت بتغطية صناعة التكنولوجيا لمدة 24 عامًا وكنت كاتبًا علميًا لمدة خمس سنوات قبل ذلك. لدي خبرة عميقة في المعالجات الدقيقة، والتصوير الرقمي، وأجهزة وبرامج الكمبيوتر، ومعايير الإنترنت، وتكنولوجيا الويب، وغيرها من الأمور.

بدأت Google في جلب فهم أصلي للفيديو والصوت والصور إلى منتجاتها بارد AI chatbot مع نموذج جديد يسمى الجوزاء. هاتف جوجل بيكسل 8 سيكون المالكون من بين أول من يستفيد من قدرات الذكاء الاصطناعي الجديدة.

وصلت التجسيدات الأولى للتكنولوجيا الجديدة يوم الأربعاء إلى عشرات البلدان تحديث جوجل بارد الجوزاء، ولكن باللغة الإنجليزية فقط. يمكن أن يوفر قدرات الدردشة النصية تقول Google إنها تعمل على تحسين قدرات الذكاء الاصطناعي في المهام المعقدة مثل تلخيص المستندات والاستدلال وكتابة كود البرمجة. وقالت جوجل إن التغيير الأكبر في قدرات الوسائط المتعددة – على سبيل المثال فهم إيماءات اليد في مقطع فيديو أو معرفة نتيجة لغز الرسم من نقطة إلى نقطة للطفل – سيأتي “قريبًا”.

شاهد هذا: الانطباعات الأولى عن الجوزاء: أحدث ترقية رئيسية للذكاء الاصطناعي من Google

03:01

يعد برج الجوزاء بمثابة انطلاقة دراماتيكية للذكاء الاصطناعي. تعد الدردشة النصية مهمة، ولكن يجب على البشر معالجة معلومات أكثر ثراءً بينما نعيش في عالمنا ثلاثي الأبعاد والمتغير باستمرار. ونستجيب بقدرات تواصل معقدة، مثل الكلام والصور، وليس فقط الكلمات المكتوبة. الجوزاء هي محاولة للاقتراب من فهمنا الكامل للعالم.

وقالت جوجل إن جيميني يأتي في ثلاثة إصدارات مصممة لمستويات مختلفة من قوة الحوسبة:

يعمل Gemini Nano على الهواتف المحمولة، مع توفر نوعين مختلفين مصممين لمستويات مختلفة من الذاكرة المتوفرة. ستعمل هذه الميزة على تشغيل ميزات جديدة على هواتف Pixel 8 من Google، مثل تلخيص المحادثات في تطبيق Recorder أو اقتراح ردود على الرسائل في WhatsApp المكتوبة باستخدام Gboard من Google.
يعمل برنامج Gemini Pro، الذي تم ضبطه للاستجابات السريعة، في مراكز بيانات Google وسيعمل على تشغيل إصدار جديد من Bard، بدءًا من يوم الأربعاء.
سيكون Gemini Ultra، الذي يقتصر على مجموعة اختبارية في الوقت الحالي، متاحًا في برنامج الدردشة Bard Advanced الجديد المقرر إصداره في أوائل عام 2024. ورفضت Google الكشف عن تفاصيل الأسعار، لكنها تتوقع دفع علاوة مقابل هذه الإمكانية العليا.

يسلط الإصدار الجديد الضوء على الوتيرة السريعة للتقدم في مجال الذكاء الاصطناعي التوليدي الجديد، حيث تقوم روبوتات الدردشة بإنشاء استجاباتها الخاصة للمطالبات التي نكتبها بلغة واضحة بدلاً من تعليمات البرمجة الغامضة. حقق OpenAI، أكبر منافس لشركة Google، تقدمًا كبيرًا مع إطلاقه ChatGPT قبل عام مضى، ولكن Google تجري حاليًا المراجعة الرئيسية الثالثة لنموذج الذكاء الاصطناعي وتتوقع تقديم هذه التكنولوجيا من خلال المنتجات التي يستخدمها المليارات منا، مثل البحث، وChrome، وGoogle Docs، وGmail.

وقال إيلي كولينز: “لقد أردنا لفترة طويلة بناء جيل جديد من نماذج الذكاء الاصطناعي المستوحاة من الطريقة التي يفهم بها الناس العالم ويتفاعلون معه – وهو ذكاء اصطناعي يبدو وكأنه متعاون مفيد وليس كقطعة ذكية من البرامج”. ، نائب رئيس المنتجات في قسم DeepMind في Google. “الجوزاء يقربنا خطوة من تلك الرؤية.”

تقوم OpenAI أيضًا بتزويد العقول وراء تقنية Copilot AI من Microsoft، بما في ذلك الأحدثنموذج GPT-4 Turbo AI الذي أصدرته OpenAI في نوفمبر. تمتلك Microsoft، مثل Google، منتجات رئيسية مثل Office وWindows والتي تضيف إليها ميزات الذكاء الاصطناعي.

أصبح الذكاء الاصطناعي أكثر ذكاءً، لكنه ليس مثاليًا

من المحتمل أن تكون الوسائط المتعددة تغييرًا كبيرًا مقارنة بالنص عند وصولها. لكن ما لم يتغير هو المشاكل الأساسية التي تواجه نماذج الذكاء الاصطناعي التي يتم تدريبها من خلال التعرف على الأنماط بكميات هائلة من بيانات العالم الحقيقي. يمكنهم تحويل المطالبات المعقدة بشكل متزايد إلى استجابات معقدة بشكل متزايد، ولكن لا يزال لا يمكنك الوثوق في أنهم لم يقدموا إجابة معقولة فقط بدلاً من أن تكون صحيحة بالفعل. كما يحذر برنامج الدردشة الآلي من Google عند استخدامه، “قد يعرض Bard معلومات غير دقيقة، بما في ذلك المعلومات المتعلقة بالأشخاص، لذا تحقق مرة أخرى من استجاباته”.

Gemini هو الجيل التالي من نموذج اللغة الكبير من Google، وهو تكملة لـ PaLM وPaLM 2 اللذين كانا أساس Bard حتى الآن. ولكن من خلال تدريب Gemini في وقت واحد على النصوص وأكواد البرمجة والصور والصوت والفيديو، فإنه قادر على التعامل بكفاءة أكبر مع مدخلات الوسائط المتعددة مقارنةً بنماذج الذكاء الاصطناعي المنفصلة ولكن المترابطة لكل وضع من أوضاع الإدخال.

أمثلة على قدرات برج الجوزاء بحسب أ جوجل ورقة بحثية(PDF) متنوعة.

عند النظر إلى سلسلة من الأشكال التي تتكون من مثلث ومربع وخماسي، يمكنه أن يخمن بشكل صحيح أن الشكل التالي في السلسلة هو مسدس. تم تقديمه مع صور للقمر ويد تحمل كرة جولف وطُلب منه العثور على الرابط، ويشير بشكل صحيح إلى أن رواد فضاء أبولو ضربوا كرتي جولف على القمر في عام 1971. وقام بتحويل أربعة مخططات شريطية توضح كيفية التخلص من النفايات في كل دولة على حدة التقنيات في جدول مسمى ورصدت نقطة بيانات نائية، وهي أن الولايات المتحدة ترمي كمية من البلاستيك في مكب النفايات أكثر بكثير من المناطق الأخرى.

وأظهرت الشركة أيضًا أن شركة Gemini تعالج مشكلة فيزيائية مكتوبة بخط اليد تتضمن رسمًا بسيطًا، وتكتشف مكان خطأ الطالب، وتشرح التصحيح. أظهر مقطع فيديو تجريبي أكثر مشاركة برج الجوزاء وهو يتعرف على بطة زرقاء ودمى يدوية وحيل خفة اليد ومقاطع فيديو أخرى. ومع ذلك، لم يكن أي من العروض التوضيحية مباشرًا، وليس من الواضح عدد المرات التي يتعثر فيها Gemini في مثل هذه التحديات.

ينتظر Gemini Ultra مزيدًا من الاختبارات قبل ظهوره العام المقبل.

“الفريق الأحمر”، حيث يقوم صانع المنتج بتجنيد الأشخاص للعثور على ثغرات أمنية ومشاكل أخرى، يجري تنفيذه حاليًا لصالح Gemini Ultra. تكون مثل هذه الاختبارات أكثر تعقيدًا مع بيانات إدخال الوسائط المتعددة. على سبيل المثال، يمكن أن تكون كل من الرسالة النصية والصورة غير ضارة في حد ذاتها، ولكن عند اقترانها يمكن أن تنقل معنى مختلفًا بشكل كبير.

وقال الرئيس التنفيذي لشركة جوجل: “إننا نتعامل مع هذا العمل بجرأة ومسؤولية”. قال ساندر بيتشاي في منشور بالمدونة. وهذا يعني الجمع بين البحوث الطموحة والمكاسب المحتملة الكبيرة، ولكن أيضا إضافة الضمانات والعمل بشكل تعاوني مع الحكومات وغيرها “لمعالجة المخاطر عندما يصبح الذكاء الاصطناعي أكثر قدرة”.

ملاحظة المحررين: تستخدم CNET محرك الذكاء الاصطناعي للمساعدة في إنشاء بعض القصص. للمزيد راجعهذا المشنور.

أدلة الحوسبة

اقرأ أكثر

يحاول Google Gemini AI التفوق على ChatGPT بمهارات الصور والفيديو

أصبح الذكاء الاصطناعي أكثر ذكاءً، لكنه ليس مثاليًا

أدلة الحوسبة

Reactions

ردود الفعل