تحاول Google إحداث ضجة مع Gemini، وهي منصة توليدية جديدة للذكاء الاصطناعي ظهرت لأول مرة مؤخرًا. ولكن في حين يبدو برج الجوزاء واعدًا في بعض الجوانب، إلا أنه مقصر في جوانب أخرى. إذن ما هو الجوزاء؟ كيف يمكن إستخدامه؟ وكيف يرقى إلى مستوى المنافسة؟
لتسهيل مواكبة أحدث تطورات Gemini، قمنا بتجميع هذا الدليل المفيد، والذي سنستمر في تحديثه مع إصدار نماذج وميزات Gemini الجديدة.
ما هو الجوزاء؟
الجوزاء هو جوجل وعدت منذ فترة طويلة، عائلة نماذج الذكاء الاصطناعي من الجيل التالي، التي طورتها مختبرات أبحاث الذكاء الاصطناعي التابعة لشركة Google DeepMind وGoogle Research. يأتي بثلاث نكهات:
- الجوزاء الترا، نموذج الجوزاء الرائد
- الجوزاء برو، نموذج برج الجوزاء “الخفيف”.
- الجوزاء نانو، وهو نموذج “مقطر” أصغر يعمل على الأجهزة المحمولة مثل بكسل 8 برو
تم تدريب جميع نماذج جيميني لتكون “متعددة الوسائط بشكل أصلي” – وبعبارة أخرى، قادرة على العمل مع أكثر من مجرد نص واستخدامه. لقد تم تدريبهم مسبقًا وضبطهم جيدًا على مجموعة متنوعة من الملفات الصوتية والصور ومقاطع الفيديو، ومجموعة كبيرة من قواعد التعليمات البرمجية، والنصوص بلغات مختلفة.
وهذا ما يميز Gemini عن النماذج مثل نموذج اللغة الكبير الخاص بشركة Google لامدا، والتي تم تدريبها فقط على البيانات النصية. لا يستطيع LaMDA فهم أو إنشاء أي شيء آخر غير النص (مثل المقالات ومسودات البريد الإلكتروني وما إلى ذلك) – ولكن هذا ليس هو الحال مع نماذج Gemini. ولا تزال قدرتهم على فهم الصور والصوت والطرائق الأخرى محدودة، ولكنها أفضل من لا شيء.
ما الفرق بين بارد والجوزاء؟
جوجل تثبت مرة اخرى أنه يفتقر إلى موهبة العلامة التجارية، ولم يوضح منذ البداية أن الجوزاء منفصل ومتميز عن بارد. Bard هي ببساطة واجهة يمكن من خلالها الوصول إلى بعض نماذج Gemini – فكر فيها كتطبيق أو عميل لـ Gemini ونماذج الذكاء الاصطناعي الأخرى. من ناحية أخرى، فإن الجوزاء عبارة عن عائلة من العارضات – وليست تطبيقًا أو واجهة أمامية. لا توجد تجربة الجوزاء المستقلة، ومن غير المرجح أن تكون هناك على الإطلاق. إذا أردت المقارنة بمنتجات OpenAI، فإن Bard يتوافق مع ChatGPT، تطبيق الذكاء الاصطناعي للمحادثة الشهير OpenAI، ويتوافق Gemini مع نموذج اللغة الذي يشغله، والذي في حالة ChatGPT هو GPT-3.5 أو 4.
بالمناسبة، الجوزاء أيضًا مستقل تمامًا عن إيماجين-2، نموذج تحويل النص إلى صورة قد يتناسب أو لا يتناسب مع استراتيجية الذكاء الاصطناعي الشاملة للشركة. لا تقلق، أنت لست الوحيد الذي يرتبك بسبب هذا!
ماذا يمكن أن يفعل الجوزاء؟
ونظرًا لأن نماذج جيميني متعددة الوسائط، فيمكنها نظريًا أداء مجموعة من المهام، بدءًا من نسخ الكلام إلى التعليق على الصور ومقاطع الفيديو وحتى إنشاء أعمال فنية. لم يصل سوى عدد قليل من هذه الإمكانات إلى مرحلة المنتج حتى الآن (سنتحدث عن ذلك لاحقًا)، لكن Google تعد بها جميعًا – وأكثر – في مرحلة ما في المستقبل غير البعيد.
وبطبيعة الحال، فإنه من الصعب بعض الشيء أن تأخذ الشركة في كلمتها.
جوجل على محمل الجد نقص التسليم مع إطلاق بارد الأصلي. ومؤخراً أزعجت الريش بفيديو يُزعم أنه يُظهر قدرات الجوزاء والتي تبين أنها تم التلاعب بها بشكل كبير وكانت طموحة إلى حد ما. تَوأَم يكون، يُحسب لشركة التكنولوجيا العملاقة، أنها متاحة بشكل ما اليوم – ولكن بشكل محدود إلى حد ما.
ومع ذلك، على افتراض أن جوجل صادقة إلى حد ما في ادعاءاتها، فإليك ما ستتمكن المستويات المختلفة لنماذج جيميني من فعله بمجرد إصدارها:
الجوزاء الترا
قليل من الناس هم الذين وضعوا أيديهم على نموذج Gemini Ultra، النموذج “الأساسي” الذي تم بناء الآخرين عليه حتى الآن – مجرد “مجموعة مختارة” من العملاء عبر عدد قليل من تطبيقات وخدمات جوجل. ولن يتغير هذا إلا في وقت لاحق من هذا العام، عندما يتم إطلاق أكبر نموذج من Google على نطاق أوسع. معظم المعلومات حول Ultra تأتي من العروض التوضيحية للمنتجات التي تقودها Google، لذا من الأفضل أن تؤخذ مع قليل من الشك.
تقول Google إن Gemini Ultra يمكن استخدامه للمساعدة في أشياء مثل واجبات الفيزياء المنزلية وحل المشكلات خطوة بخطوة في ورقة العمل والإشارة إلى الأخطاء المحتملة في الإجابات المملوءة بالفعل. يمكن تطبيق جيميني ألترا أيضًا على مهام، مثل تحديد الأوراق العلمية ذات الصلة بمشكلة معينة، كما تقول جوجل، واستخراج المعلومات من تلك الأوراق و”تحديث” مخطط من أحدها عن طريق إنشاء الصيغ اللازمة لإعادة إنشاء المخطط ببيانات أحدث.
يدعم Gemini Ultra تقنيًا إنشاء الصور، كما تمت الإشارة إليه سابقًا. لكن هذه الإمكانية لن تجد طريقها إلى النسخة المنتجة من النموذج عند الإطلاق، وفقًا لجوجل – ربما لأن الآلية أكثر تعقيدًا من الطريقة التي تعمل بها تطبيقات مثل ChatGPT توليد الصور. بدلاً من تغذية المطالبات لمولد الصور (مثل دال-E 3، في حالة ChatGPT)، يقوم Gemini بإخراج الصور “محليًا” دون خطوة وسيطة.
الجوزاء برو
على عكس Gemini Ultra، فإن Gemini Pro متاح للعامة اليوم. ولكن من المربك أن قدراتها تعتمد على مكان استخدامها.
تقول Google إنه في Bard، حيث تم إطلاق Gemini Pro لأول مرة في شكل نص فقط، يعد النموذج بمثابة تحسين على LaMDA في قدراته على التفكير والتخطيط والفهم. مستقل يذاكر وجد باحثون من جامعة كارنيجي ميلون وBerriAI أن Gemini Pro أفضل بالفعل من OpenAI جي بي تي-3.5 في التعامل مع سلاسل التفكير الأطول والأكثر تعقيدًا.
لكن الدراسة وجدت أيضًا أنه، مثل جميع نماذج اللغات الكبيرة، يواجه Gemini Pro بشكل خاص مشاكل رياضية تتضمن عدة أرقام، و لقد وجد المستخدمون الكثير من الأمثلة من سوء الظن والأخطاء. لقد ارتكبت الكثير من الأخطاء الواقعية للاستفسارات البسيطة مثل من فاز بأحدث جوائز الأوسكار. لقد وعدت جوجل بإجراء تحسينات، لكن ليس من الواضح متى ستصل.
يتوفر Gemini Pro أيضًا عبر واجهة برمجة التطبيقات في Vertex AI، منصة مطوري الذكاء الاصطناعي المُدارة بالكامل من Google، والتي تقبل النص كمدخل وتولد النص كمخرج. يمكن لنقطة نهاية إضافية، Gemini Pro Vision، معالجة النص و الصور – بما في ذلك الصور والفيديو – وإخراج النص على غرار OpenAI GPT-4 مع الرؤية نموذج.
ضمن Vertex AI، يمكن للمطورين تخصيص Gemini Pro لسياقات محددة وحالات الاستخدام باستخدام عملية الضبط الدقيق أو “التأريض”. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة التطبيقات الخارجية التابعة لجهات خارجية لتنفيذ إجراءات معينة.
في وقت ما في “أوائل عام 2024″، سيتمكن عملاء Vertex من النقر على Gemini Pro لتشغيل وكلاء المحادثة الصوتية والدردشة المصممين خصيصًا (أي روبوتات الدردشة). سيصبح Gemini Pro أيضًا خيارًا لقيادة تلخيص البحث وميزات توليد التوصيات والإجابات في Vertex AI، بالاعتماد على المستندات عبر الأساليب (مثل ملفات PDF والصور) من مصادر مختلفة (مثل OneDrive وSalesforce) لتلبية الاستفسارات.
في AI Studio، أداة Google المستندة إلى الويب لمطوري التطبيقات والأنظمة الأساسية، توجد مسارات عمل لإنشاء مطالبات ذات شكل حر ومنظم ومطالبات للدردشة باستخدام Gemini Pro. يتمتع المطورون بإمكانية الوصول إلى نقطتي النهاية Gemini Pro وGemini Pro Vision، ويمكنهم ضبط درجة حرارة النموذج للتحكم في النطاق الإبداعي للمخرجات وتقديم أمثلة لإعطاء تعليمات النغمة والأسلوب – وكذلك ضبط إعدادات الأمان.
الجوزاء نانو
Gemini Nano هو إصدار أصغر بكثير من طرازي Gemini Pro وUltra، وهو فعال بما يكفي للتشغيل مباشرة على (بعض) الهواتف بدلاً من إرسال المهمة إلى خادم في مكان ما. يعمل حتى الآن على تشغيل ميزتين في Pixel 8 Pro: التلخيص في المُسجل والرد الذكي في Gboard.
يتضمن تطبيق Recorder، الذي يتيح للمستخدمين الضغط على زر لتسجيل الصوت ونسخه، ملخصًا مدعومًا من Gemini لمحادثاتك المسجلة والمقابلات والعروض التقديمية والمقتطفات الأخرى. يحصل المستخدمون على هذه الملخصات حتى لو لم يكن لديهم إشارة أو اتصال Wi-Fi متاح – وفي إشارة إلى الخصوصية، لا تترك أي بيانات هواتفهم أثناء هذه العملية.
Gemini Nano موجود أيضًا في Gboard، تطبيق لوحة المفاتيح من Google، كملف نظرة مطور. هناك، يتم تشغيل ميزة تسمى الرد الذكي، والتي تساعد في اقتراح الشيء التالي الذي تريد قوله عند إجراء محادثة في تطبيق المراسلة. وتقول جوجل إن الميزة تعمل في البداية مع تطبيق واتساب فقط، ولكنها ستصل إلى المزيد من التطبيقات في عام 2024.
هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟
لا توجد طريقة لمعرفة حال عائلة الجوزاء حقًا يستمر الأمر حتى تقوم Google بإصدار Ultra في وقت لاحق من هذا العام، لكن الشركة تطالب بإدخال تحسينات على أحدث ما توصلت إليه التكنولوجيا – والذي عادةً ما يكون GPT-4 من OpenAI.
لقد أشادت Google عدة مرات بتفوق Gemini في المعايير، زاعمة أن Gemini Ultra يتجاوز أحدث النتائج الحالية في “30 من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع والمستخدمة في أبحاث وتطوير النماذج اللغوية الكبيرة.” وتقول الشركة إن Gemini Pro، في الوقت نفسه، أكثر قدرة على أداء مهام مثل تلخيص المحتوى والعصف الذهني والكتابة من GPT-3.5.
ولكن إذا تركنا جانباً مسألة ما إذا كانت المعايير تشير حقاً إلى نموذج أفضل، فإن النتائج التي تشير إليها جوجل تبدو أفضل بشكل هامشي فقط من نماذج OpenAI المقابلة. وكما ذكرنا سابقًا، فإن بعض الانطباعات المبكرة لم تكن رائعة المستخدمين و الأكاديميين مشيرًا إلى أن Gemini Pro يميل إلى فهم الحقائق الأساسية بشكل خاطئ، ويواجه صعوبة في الترجمات، ويقدم اقتراحات برمجية سيئة.
كم سيكلف الجوزاء؟
Gemini Pro مجاني للاستخدام في Bard، وفي الوقت الحالي، AI Studio وVertex AI.
ومع ذلك، بمجرد خروج Gemini Pro من المعاينة في Vertex، سيكلف النموذج 0.0025 دولارًا أمريكيًا لكل حرف بينما سيكلف الإخراج 0.00005 دولارًا أمريكيًا لكل حرف. يدفع عملاء Vertex مقابل كل 1000 حرف (حوالي 140 إلى 250 كلمة)، وفي حالة نماذج مثل Gemini Pro Vision، يدفعون لكل صورة (0.0025 دولار).
لنفترض أن المقالة المكونة من 500 كلمة تحتوي على 2000 حرف. إن تلخيص هذه المقالة باستخدام Gemini Pro سيكلف 5 دولارات. في أثناء،توليدمقالة ذات طول مماثل ستكلف 0.1 دولار.
أين يمكنك تجربة الجوزاء؟
الجوزاء برو
أسهل مكان لتجربة Gemini Pro هو بارد. هناك إصدار محسّن من Pro يجيب على استفسارات Bard النصية باللغة الإنجليزية في الولايات المتحدة في الوقت الحالي، مع وصول لغات إضافية وبلدان مدعومة في المستقبل.
الجوزاء برو هو أيضا يمكن الوصول في المعاينة في Vertex AI عبر واجهة برمجة التطبيقات. واجهة برمجة التطبيقات (API) مجانية الاستخدام “ضمن الحدود” في الوقت الحالي وتدعم 38 لغة ومنطقة بما في ذلك أوروبا، بالإضافة إلى ميزات مثل وظائف الدردشة والتصفية.
وفي مكان آخر، يمكن أن يكون Gemini Pro كذلك وجد في استوديو الذكاء الاصطناعي. باستخدام الخدمة، يمكن للمطورين تكرار المطالبات وروبوتات الدردشة المستندة إلى Gemini ثم الحصول على مفاتيح API لاستخدامها في تطبيقاتهم – أو تصدير التعليمات البرمجية إلى IDE أكثر تميزًا.
Duet AI للمطورين، ستبدأ مجموعة أدوات المساعدة المدعومة بالذكاء الاصطناعي من Google لإكمال التعليمات البرمجية وإنشائها، في استخدام نموذج Gemini في الأسابيع المقبلة. وتخطط جوجل لجلب نماذج Gemini إلى أدوات التطوير لمتصفح Chrome ومنصة تطوير الأجهزة المحمولة Firebase في نفس الوقت تقريبًا، في أوائل عام 2024.
الجوزاء نانو
Gemini Nano موجود على Pixel 8 Pro، وسيتوفر على أجهزة أخرى في المستقبل. يمكن للمطورين المهتمين بدمج النموذج في تطبيقات Android الخاصة بهم اشتراكلإلقاء نظرة خاطفة.
سنبقي هذا المنشور على اطلاع بآخر التطورات.