في مكتب مفتوح مزدحم في ماونتن فيو، كاليفورنيا، كان روبوت طويل ونحيف ذو عجلات مشغولاً بلعب دور المرشد السياحي ومساعد المكتب غير الرسمي – بفضل ترقية نموذج اللغة الكبير، Google DeepMind تم الكشف اليوميستخدم الروبوت الإصدار الأحدث من برنامج Google نموذج لغة الجوزاء الكبير لتحليل الأوامر والعثور على طريقها.
على سبيل المثال، عندما يُقال للروبوت من قبل شخص ما “ابحث لي عن مكان للكتابة”، ينطلق الروبوت بهدوء، ويقود الشخص إلى سبورة بيضاء نظيفة تقع في مكان ما في المبنى.
إن قدرة جيميني على التعامل مع الفيديو والنص ـ بالإضافة إلى قدرته على استيعاب كميات كبيرة من المعلومات في هيئة جولات فيديو مسجلة مسبقاً في المكتب ـ تسمح لروبوت “مساعد جوجل” بفهم بيئته والتنقل بشكل صحيح عندما يُعطى أوامر تتطلب بعض التفكير السليم. ويجمع الروبوت جيميني مع خوارزمية تولد إجراءات محددة ليقوم بها الروبوت، مثل الدوران، استجابة للأوامر وما يراه أمامه.
عندما تم تقديم جيميني في ديسمبر، قال ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، قال لـ WIRED وأضاف أن قدراته المتعددة الوسائط من المرجح أن تفتح المجال أمام قدرات روبوتية جديدة. وأضاف أن باحثي الشركة يعملون بجد لاختبار الإمكانات الروبوتية للنموذج.
في ورقة جديدة وفي إطار شرح المشروع، يقول الباحثون القائمون على العمل إن الروبوت أثبت أنه موثوق بنسبة 90% في التنقل، حتى عندما أُعطيت أوامر صعبة مثل “أين تركت قطاري الأفعواني؟”. ويكتب الفريق أن نظام DeepMind “حسن بشكل كبير من طبيعة التفاعل بين الإنسان والروبوت، وزاد بشكل كبير من قابلية استخدام الروبوت”.
يوضح العرض التوضيحي بوضوح الإمكانات المتاحة نماذج لغوية كبيرة للوصول إلى العالم المادي والقيام بعمل مفيد. الجوزاء وغيرها روبوتات الدردشة تعمل في الغالب ضمن حدود متصفح الويب أو التطبيق، على الرغم من أنها أصبحت قادرة بشكل متزايد على التعامل مع المدخلات المرئية والمسموعة، مثل كلا من جوجل و OpenAI لديها وقد تم عرضه مؤخرًا. في شهر مايو، عرض هاسابيس نسخة مطورة من Gemini قادرة على فهم تخطيط المكتب كما يُرى من خلال كاميرا الهاتف الذكي.
تتسابق مختبرات الأبحاث الأكاديمية والصناعية لمعرفة كيف يمكن استخدام نماذج اللغة لتعزيز قدرات الروبوتات. برنامج للمؤتمر الدولي للروبوتات والأتمتة، وهو حدث شعبي للباحثين في مجال الروبوتات، يوجد ما يقرب من عشرين ورقة بحثية تتضمن استخدام نماذج لغة الرؤية.
المستثمرون هم صب المال في الشركات الناشئة التي تهدف إلى تطبيق التطورات في الذكاء الاصطناعي على الروبوتات. وقد ترك العديد من الباحثين المشاركين في مشروع جوجل الشركة منذ ذلك الحين لتأسيس شركة ناشئة تسمى الذكاء الجسديوقد حصلت شركة “كيو تيك” على تمويل أولي بقيمة 70 مليون دولار؛ وهي تعمل على الجمع بين نماذج لغوية كبيرة والتدريب في العالم الحقيقي لمنح الروبوتات قدرات عامة على حل المشكلات. سكيلد اي ايوتسعى شركة “أوتوموبيلي”، التي أسسها علماء روبوتات في جامعة كارنيجي ميلون، إلى تحقيق هدف مماثل. وأعلنت هذا الشهر عن تمويل بقيمة 300 مليون دولار.
قبل بضع سنوات فقط، كان الروبوت يحتاج إلى خريطة لبيئته وأوامر مختارة بعناية للتنقل بنجاح. تحتوي نماذج اللغة الكبيرة على معلومات مفيدة حول العالم المادي، والإصدارات الأحدث التي يتم تدريبها على الصور والفيديو وكذلك النص، والمعروفة باسم نماذج لغة الرؤية، يمكنها الإجابة على الأسئلة التي تتطلب الإدراك. يسمح Gemini لروبوت Google بتحليل التعليمات المرئية وكذلك المنطوقة، باتباع رسم تخطيطي على السبورة البيضاء يوضح الطريق إلى وجهة جديدة.
وفي ورقتهم البحثية، يقول الباحثون إنهم يخططون لاختبار النظام على أنواع مختلفة من الروبوتات. ويضيفون أن جيميني يجب أن يكون قادرًا على فهم أسئلة أكثر تعقيدًا، مثل “هل لديهم مشروبي المفضل اليوم؟” من مستخدم لديه الكثير من علب الكوكاكولا الفارغة على مكتبه.