مراجعة تكنولوجيا معهد ماساتشوستس للتكنولوجيا حصلت على تجربة Astra في عرض حي مغلق الأسبوع الماضي. لقد كانت تجربة مذهلة، ولكن هناك فجوة بين العرض الترويجي المصقول والعرض التجريبي المباشر.
تستخدم Astra إطار عمل الوكيل المدمج في Gemini 2.0 للإجابة على الأسئلة وتنفيذ المهام عبر النصوص والكلام والصورة والفيديو، واستدعاء تطبيقات Google الحالية مثل البحث والخرائط وLens عندما تحتاج إلى ذلك. يقول بيبو شو، مدير المنتج في شركة أسترا: “إنها تدمج بعضًا من أقوى أنظمة استرجاع المعلومات في عصرنا”.
ينضم Mariner إلى Gemini 2.0 وAstra، وهو وكيل جديد مبني على رأس Gemini يمكنه تصفح الويب نيابةً عنك؛ Jules، مساعد برمجة جديد مدعوم من Gemini؛ وGemini for Games، وهو مساعد تجريبي يمكنك الدردشة معه وطلب النصائح أثناء لعب ألعاب الفيديو.
(ودعونا لا ننسى أنه في الأسبوع الماضي أعلن Google DeepMind أيضًا”https://deepmind.google/technologies/veo/”> فيو، نموذج جديد لتوليد الفيديو؛”https://deepmind.google/technologies/imagen-3/”> الصورة 3، نسخة جديدة من نموذج توليد الصور الخاص بها؛ و”https://blog.google/technology/research/google-willow-quantum-chip/”> الصفصافنوع جديد من الرقائق لأجهزة الكمبيوتر الكمومية. يا للعجب. وفي الوقت نفسه، الرئيس التنفيذي”https://www.technologyreview.com/2022/02/23/1045016/ai-deepmind-demis-hassabis-alphafold/”> ديميس هاسابيس كان في السويد بالأمس يتسلمه”https://www.technologyreview.com/2024/10/09/1105335/google-deepmind-wins-joint-nobel-prize-in-chemistry-for-protein-prediction-ai/”> جائزة نوبل.)
يدعي Google DeepMind أن Gemini 2.0 أسرع مرتين من الإصدار السابق، Gemini 1.5، ويتفوق عليه في عدد من المعايير القياسية، بما في ذلك MMLU-Pro، وهي مجموعة كبيرة من الأسئلة متعددة الخيارات المصممة لاختبار قدرات نماذج اللغة الكبيرة عبر مجموعة من المواضيع، من الرياضيات والفيزياء إلى الصحة وعلم النفس والفلسفة.
لكن الهوامش بين النماذج المتطورة مثل Gemini 2.0 وتلك التي تنتجها المعامل المنافسة مثل OpenAI وAnthropic أصبحت الآن ضئيلة. في هذه الأيام، لا يتعلق التقدم في نماذج اللغات الكبيرة بمدى جودتها بقدر ما يتعلق بما يمكنك فعله بها.
وهنا يأتي دور الوكلاء.
التدريب العملي على مشروع أسترا
في الأسبوع الماضي، تم نقلي عبر باب غير مميز في الطابق العلوي من أحد المباني في منطقة كينغز كروس في لندن، إلى غرفة ذات أجواء قوية تتعلق بالمشروع السري. كانت كلمة “أسترا” مكتوبة بأحرف عملاقة على أحد الجدران. كلب شو، تشارلي، المشروع”https://www.youtube.com/watch?v=nXVvvRhiGjI&t=121s”> التميمة الفعلية، يتجول بين المكاتب التي ينشغل فيها الباحثون والمهندسون ببناء منتج تراهن عليه جوجل بمستقبلها.
“الفكرة التي طرحتها على والدتي هي أننا نبني ذكاءً اصطناعيًا له عيون وآذان وصوت. يقول جريج واين، القائد المشارك لفريق أسترا: “يمكن أن يكون معك في أي مكان، ويمكن أن يساعدك في أي شيء تفعله”. “لم نصل إلى هذا الحد بعد، ولكن هذا هو نوع الرؤية.”
المصطلح الرسمي لما يبنيه شو وواين وزملاؤهما هو “المساعد العالمي”. بالضبط ما يعنيه ذلك في الممارسة العملية، ما زالوا يكتشفون ذلك.
في أحد أطراف غرفة أسترا، كانت هناك مجموعتان من المسرح يستخدمهما الفريق في العروض التوضيحية: بار مشروبات ومعرض فني ساخر. أخذني شو إلى الحانة أولاً. وقال برافين سرينيفاسان، وهو قائد مشارك آخر: “منذ وقت طويل، قمنا بتعيين خبير كوكتيل وطلبنا منه أن يرشدنا إلى صنع الكوكتيلات”. “لقد سجلنا تلك المحادثات واستخدمناها لتدريب نموذجنا الأولي.”
فتحت شو كتاب طبخ لوصفة دجاج بالكاري، ووجهت هاتفها نحوه، وأيقظت أسترا. “ني هاو، بيبو!” قال صوت أنثى.
“أوه! لماذا تتحدث معي باللغة الماندرين؟” سأل شو هاتفها. “هل يمكنك التحدث معي باللغة الإنجليزية، من فضلك؟”
“اعتذاري، بيبو. كنت أتبع تعليمات سابقة للتحدث باللغة الماندرين. سأتحدث الآن باللغة الإنجليزية كما طلبت.”
أخبرني شو أن أسترا تتذكر المحادثات السابقة. كما أنه يتتبع الدقائق العشر السابقة من الفيديو. (هناك لحظة رائعة في الفيديو الترويجي الذي نشرته جوجل في شهر مايو عندما تخبر أسترا الشخص الذي يقدم العرض التوضيحي بالمكان الذي تركت فيه نظارتها، بعد أن رصدتها على مكتب قبل بضع ثوانٍ. لكنني لم أر شيئًا كهذا في البث المباشر عرض توضيحي.)
العودة إلى كتاب الطبخ. قامت شو بتحريك كاميرا هاتفها فوق الصفحة لبضع ثوان، وطلبت من أسترا قراءة الوصفة وإخبارها عن التوابل الموجودة فيها. فأجاب: “أتذكر الوصفة التي ذكرت فيها ملعقة صغيرة من الفلفل الأسود، وملعقة صغيرة من مسحوق الفلفل الحار، وعود القرفة”.
قال شو: “أعتقد أنك تفتقد القليل منها”. “ألق نظرة أخرى.”
“أنت على حق – أعتذر. وأرى أيضًا الكركم المطحون وأوراق الكاري في المكونات.
عند رؤية هذه التقنية قيد التنفيذ، سيخطر ببالك أمران على الفور. أولاً، إنها معيبة وغالبًا ما تحتاج إلى تصحيح. ثانيًا، يمكن تصحيح هذه الأخطاء ببضع كلمات منطوقة فقط. ما عليك سوى مقاطعة الصوت وتكرار تعليماتك والمضي قدمًا. يبدو الأمر أشبه بتدريب طفل بدلاً من نطح رؤوسه ببرامج معطلة.
بعد ذلك، وجهت شو هاتفها نحو صف من زجاجات النبيذ وطلبت من أسترا اختيار الزجاجة التي تناسب الدجاج بالكاري. ذهبت لريوخا وشرحت السبب. سأل شو كم ستكلف الزجاجة. قالت Astra إنها ستحتاج إلى استخدام البحث للبحث عن الأسعار عبر الإنترنت. وبعد ثواني قليلة عادت بإجابتها.
انتقلنا إلى المعرض الفني، وأظهر Xu لأسترا عددًا من الشاشات التي تحمل لوحات شهيرة: الموناليزا، مونش الصرخة، وفيرمير، وسيورات، والعديد من الآخرين. “ني هاو، بيبو!” قال الصوت.
قال شو: “أنت تتحدث معي باللغة الماندرين مرة أخرى”. “حاول التحدث معي باللغة الإنجليزية من فضلك.”
“اعتذاري، يبدو أنني قد أسأت الفهم. نعم، سأرد باللغة الإنجليزية”. (يجب أن أعرف أفضل، ولكن أستطيع أن أقسم أنني سمعت سنرك.)
لقد كان دوري. سلمتني شو هاتفها.
حاولت أن أتعثر بـ Astra، لكن لم يكن هناك أي شيء منها. سألته عن المعرض الفني الشهير الذي نتواجد فيه، لكنه رفض المخاطرة بالتخمين. سألتها لماذا حددت اللوحات على أنها نسخ طبق الأصل وبدأت في الاعتذار عن خطأها (أسترا تعتذر كثيراً). اضطررت إلى المقاطعة: «لا، لا، أنت على حق، هذا ليس خطأ. أنت على حق في تعريف اللوحات التي تظهر على الشاشات على أنها لوحات مزيفة. لم أستطع منع نفسي من الشعور بالسوء: لقد خلطت بين تطبيق موجود فقط من أجل الإرضاء.
عندما تعمل بشكل جيد، تصبح أسترا آسرة. إن تجربة إجراء محادثة مع هاتفك حول ما تشير إليه تبدو جديدة وسلسة. في مؤتمر إعلامي أمس، شارك Google DeepMind مقطع فيديو يعرض استخدامات أخرى: قراءة رسالة بريد إلكتروني على شاشة هاتفك للعثور على رمز الباب (ثم تذكيرك بهذا الرمز لاحقًا)، وتوجيه الهاتف نحو حافلة عابرة والسؤال عن مكانه. يذهب، ويستفسر عن عمل فني عام أثناء مرورك. قد يكون هذا هو التطبيق القاتل للذكاء الاصطناعي.
ومع ذلك، لا يزال هناك طريق طويل قبل أن يضع معظم الناس أيديهم على مثل هذه التكنولوجيا. ليس هناك ذكر لتاريخ الإصدار. وقد شارك Google DeepMind أيضًا مقاطع فيديو لـ Astra وهي تعمل على زوج من النظارات الذكية، ولكن هذه التقنية موجودة في قائمة أمنيات الشركة.
خلطها
في الوقت الحالي، يراقب الباحثون من خارج Google DeepMind التقدم الذي يتم إحرازه عن كثب. تقول ماريا لياكاتا، التي تعمل على نماذج لغوية كبيرة في جامعة كوين ماري في لندن ومعهد آلان تورينج: “إن الطريقة التي يتم بها دمج الأشياء مثيرة للإعجاب”. “من الصعب بما فيه الكفاية القيام بالاستدلال باستخدام اللغة، ولكن هنا تحتاج إلى جلب الصور والمزيد. هذا ليس بالأمر التافه.”
أعجب لياكاتا أيضًا بقدرة أسترا على تذكر الأشياء التي شاهدتها أو سمعتها. وهي تعمل على ما تسميه السياق طويل المدى، حيث تحصل على نماذج لتتبع المعلومات التي صادفتها من قبل. يقول لياكاتا: “هذا أمر مثير”. “حتى القيام بذلك بطريقة واحدة أمر مثير.”
لكنها تعترف بأن الكثير من تقييمها هو مجرد تخمين. وتقول: “إن التفكير متعدد الوسائط هو في الحقيقة متطور”. “لكن من الصعب جدًا معرفة مكان وجودهم بالضبط، لأنهم لم يتحدثوا كثيرًا عما تحتويه التكنولوجيا نفسها.”
بالنسبة لبوديساتوا ماجومدر، الباحث الذي يعمل على نماذج الوسائط المتعددة والوكلاء في معهد ألين للذكاء الاصطناعي، فإن هذا يمثل مصدر قلق رئيسي. ويقول: “نحن لا نعرف على الإطلاق كيف تقوم جوجل بذلك”.
ويشير إلى أنه إذا كانت شركة جوجل أكثر انفتاحًا بشأن ما تقوم ببنائه، فإن ذلك سيساعد المستهلكين على فهم القيود المفروضة على التكنولوجيا التي يمكن أن يحملوها بين أيديهم قريبًا. ويقول: “إنهم بحاجة إلى معرفة كيفية عمل هذه الأنظمة”. “أنت تريد أن يكون المستخدم قادرًا على رؤية ما تعلمه النظام عنك، أو تصحيح الأخطاء، أو إزالة الأشياء التي تريد الحفاظ على خصوصيتها.”
وتشعر لياكاتا أيضًا بالقلق بشأن الآثار المترتبة على الخصوصية، مشيرة إلى أنه يمكن مراقبة الأشخاص دون موافقتهم. وتقول: “أعتقد أن هناك أشياء أنا متحمسة لها وأشياء أشعر بالقلق بشأنها”. “هناك شيء يتعلق بهاتفك الذي أصبح عيناك، هناك شيء مثير للقلق بشأن ذلك.”
وتقول: “إن التأثير الذي ستحدثه هذه المنتجات على المجتمع كبير جدًا بحيث يجب أن يؤخذ على محمل الجد”. “لكنه أصبح سباقا بين الشركات. إنها مشكلة، خاصة أنه ليس لدينا أي اتفاق حول كيفية تقييم هذه التكنولوجيا”.
تقول Google DeepMind إنها تأخذ نظرة طويلة ودقيقة على الخصوصية والأمان والسلامة لجميع منتجاتها الجديدة. سيتم اختبار تقنيتها من قبل فرق من المستخدمين الموثوقين لعدة أشهر قبل أن تصل إلى الجمهور. “من الواضح أنه يتعين علينا أن نفكر في إساءة الاستخدام. يقول دون بلوكسويتش، مدير التطوير المسؤول والابتكار في Google DeepMind: “علينا أن نفكر، كما تعلمون، فيما يحدث عندما تسوء الأمور”. “هناك إمكانات هائلة. مكاسب الإنتاجية ضخمة. لكنه أمر محفوف بالمخاطر أيضا.”
لا يستطيع أي فريق من المختبرين توقع كل الطرق التي سيستخدم بها الأشخاص التكنولوجيا الجديدة أو يسيئون استخدامها. إذن ما هي الخطة عندما يحدث ما لا مفر منه؟ تحتاج الشركات إلى تصميم منتجات يمكن سحبها أو إيقاف تشغيلها تحسبًا لذلك، كما يقول بلوكسويتش: “إذا كنا بحاجة إلى إجراء تغييرات بسرعة أو سحب شيء ما، فيمكننا القيام بذلك”.