يمكن لنموذج الذكاء الاصطناعي المحدث الآن القيام ببعض الأشياء المثيرة للإعجاب من خلال مقاطع الفيديو الطويلة أو النصوص.
أطلقت شركة Google DeepMind اليوم الجيل التالي من نموذجها القوي للذكاء الاصطناعي Gemini، والذي يتمتع بقدرة معززة على العمل مع كميات كبيرة من الفيديو والنصوص والصور.
إنه تقدم من الإصدارات الثلاثة من Gemini 1.0 الذي أعلنت عنه Google في ديسمبر، تتراوح في الحجم والتعقيد من Nano إلى Pro إلى Ultra. (هو – هي تم طرح Gemini 1.0 Pro و1.0 Ultra عبر العديد من منتجاتها الأسبوع الماضي.) تطلق Google الآن معاينة لـ Gemini 1.5 Pro لاختيار المطورين والعملاء التجاريين. تقول الشركة إن Gemini 1.5 Pro من الطبقة المتوسطة يتطابق مع طرازها السابق من الطبقة العليا، Gemini 1.0 Ultra، من حيث الأداء، ولكنه يستخدم قوة حاسوبية أقل (نعم، الأسماء مربكة!).
والأهم من ذلك، أن طراز 1.5 Pro يمكنه التعامل مع كميات أكبر بكثير من البيانات الواردة من المستخدمين، بما في ذلك حجم المطالبات. في حين أن كل نموذج من نماذج الذكاء الاصطناعي لديه حد أقصى لكمية البيانات التي يمكنه استيعابها، فإن الإصدار القياسي من Gemini 1.5 Pro الجديد يمكنه التعامل مع مدخلات يصل حجمها إلى 128000 رمز، وهي عبارة عن كلمات أو أجزاء من الكلمات التي يقسم نموذج الذكاء الاصطناعي المدخلات إليها. وهذا على قدم المساواة مع أفضل نسخة من جي بي تي-4 (جي بي تي-4 توربو).
ومع ذلك، ستتمكن مجموعة محدودة من المطورين من إرسال ما يصل إلى مليون رمز مميز إلى Gemini 1.5 Pro، وهو ما يعادل ساعة واحدة تقريبًا من الفيديو، أو 11 ساعة من الصوت، أو 700000 كلمة نصية. هذه قفزة كبيرة تجعل من الممكن القيام بأشياء لا تستطيع أي نماذج أخرى القيام بها حاليًا.
في أحد مقاطع الفيديو التوضيحية التي عرضتها جوجل، باستخدام نسخة المليون رمز، قام الباحثون بتزويد النموذج بنسخة من 402 صفحة لمهمة الهبوط على سطح القمر أبولو. ثم عرضوا على برج الجوزاء رسمًا تخطيطيًا مرسومًا يدويًا للحذاء، وطلبوا منه تحديد اللحظة التي يمثلها الرسم في النص.
“هذه هي اللحظة التي هبط فيها نيل أرمسترونج على سطح القمر”، أجاب برنامج الدردشة الآلي بشكل صحيح. “لقد قال: خطوة صغيرة لرجل، وقفزة عملاقة للبشرية.”
وتمكن النموذج أيضًا من التعرف على لحظات الفكاهة. عندما طلب الباحثون من الباحثين العثور على لحظة مضحكة في نسخة أبولو، اختاروا عندما أشار رائد الفضاء مايك كولينز إلى أرمسترونغ باسم “القيصر”. (ربما ليس السطر الأفضل، لكنك فهمت النقطة).
وفي عرض توضيحي آخر، قام الفريق بتحميل فيلم صامت مدته 44 دقيقة يظهر فيه باستر كيتون وطلب من الذكاء الاصطناعي تحديد المعلومات الموجودة على قطعة من الورق والتي، في مرحلة ما من الفيلم، تتم إزالتها من جيب الشخصية. وفي أقل من دقيقة، وجدت العارضة المشهد وتذكرت النص المكتوب على الورقة بشكل صحيح. كرر الباحثون أيضًا مهمة مماثلة من تجربة أبولو، حيث طلبوا من النموذج العثور على مشهد في الفيلم بناءً على رسم أكمله.
تقول Google إنها أخضعت Gemini 1.5 Pro لمجموعة الاختبارات المعتادة التي تستخدمها عند تطوير نماذج لغوية كبيرة، بما في ذلك التقييمات التي تجمع بين النص والأكواد والصور والصوت والفيديو. ووجدت أن 1.5 Pro تفوق على 1.0 Pro بنسبة 87% من المعايير ويتوافق بشكل أو بآخر مع 1.0 Ultra في جميع هذه المعايير مع استخدام طاقة حاسوبية أقل.
تقول Google إن القدرة على التعامل مع مدخلات أكبر هي نتيجة للتقدم فيما يسمى خليط من الخبراء بنيان. يقوم الذكاء الاصطناعي الذي يستخدم هذا التصميم بتقسيم شبكته العصبية إلى أجزاء، مع تنشيط الأجزاء ذات الصلة بالمهمة الحالية فقط، بدلاً من تشغيل الشبكة بأكملها مرة واحدة. (جوجل ليست وحدها التي تستخدم هذه البنية؛ فقد أصدرت شركة ميسترال الفرنسية للذكاء الاصطناعي نموذجًا يستخدمها، ويُشاع أن GPT-4 يستخدم هذه التقنية أيضًا).
يقول أوريول فينيالز، قائد فريق التعلم العميق في شركة ديب مايند: “بطريقة ما، يعمل بطريقة تشبه إلى حد كبير عمل دماغنا، حيث لا ينشط الدماغ بأكمله طوال الوقت”. يعمل هذا التقسيم على توفير قوة حوسبة الذكاء الاصطناعي ويمكن أن يولد استجابات بشكل أسرع.
يقول أورين إيتزيوني، المدير الفني السابق لمعهد ألين للذكاء الاصطناعي، والذي لم يشارك في العمل: “إن هذا النوع من السلاسة الذي يتنقل ذهابًا وإيابًا عبر طرائق مختلفة، واستخدام ذلك للبحث والفهم، أمر مثير للإعجاب للغاية”. “هذا شيء لم أره من قبل.”
إن الذكاء الاصطناعي القادر على العمل عبر الطرائق سوف يشبه إلى حد كبير الطريقة التي يتصرف بها البشر. يقول إيتزيوني: “الناس بطبيعتهم متعددو الوسائط، لأننا نستطيع التبديل بسهولة بين التحدث والكتابة ورسم الصور أو الرسوم البيانية لنقل الأفكار.
ومع ذلك، حذر إيتزيوني من أخذ معنى كبير من التطورات. يقول: “هناك جملة مشهورة”. “لا تثق أبدًا في العرض التوضيحي للذكاء الاصطناعي.”
أولاً، ليس من الواضح مقدار مقاطع الفيديو التوضيحية التي تم إغفالها أو اختيارها من بين مهام مختلفة (لقد تلقت Google بالفعل انتقادات بسبب إطلاقها المبكر لـ Gemini لعدم الكشف عن تسريع الفيديو). من الممكن أيضًا أن النموذج لن يكون قادرًا على تكرار بعض العروض التوضيحية إذا تم تعديل صياغة الإدخال قليلاً. يقول إيتزيوني إن نماذج الذكاء الاصطناعي بشكل عام هشة.
يقتصر إصدار Gemini 1.5 Pro اليوم على المطورين وعملاء المؤسسات. ولم تحدد جوجل متى سيكون متاحًا للإصدار على نطاق أوسع.