أصدرت Google DeepMind نموذجًا جديدًا ، Gemini Robotics ، يجمع بين أفضل نموذج لغوي كبير مع الروبوتات. يبدو أن توصيل LLM يمنح الروبوتات القدرة على أن تكون أكثر وردية ، والعمل من أوامر اللغة الطبيعية ، والتعميم عبر المهام. الثلاثة هي الأشياء التي تكافحها الروبوتات من أجل القيام بها حتى الآن.
يأمل الفريق أن هذا يمكن أن يدخل عصر الروبوتات الأكثر فائدة بكثير ويتطلب تدريبًا أقل تفصيلاً لكل مهمة.
وقال كانيشكا راو ، مدير الروبوتات في ديبميد ، في مؤتمر صحفي للإعلان: “أحد التحديات الكبيرة في الروبوتات ، والسبب الذي يجعلك لا ترى روبوتات مفيدة في كل مكان ، هو أن الروبوتات تعمل بشكل جيد في السيناريوهات التي عانوها من قبل ، لكنهم فشلوا حقًا في التعميم في سيناريوهات غير مألوفة”.
حققت الشركة هذه النتائج من خلال الاستفادة من كل التقدم المحرز في أفضل خطوط LLM ، Gemini 2.0. يستخدم Gemini Robotics Gemini لسبب الإجراءات التي يجب اتخاذها وتتيح لها فهم الطلبات البشرية والتواصل باستخدام اللغة الطبيعية. هذا النموذج قادر أيضًا على التعميم عبر العديد من أنواع الروبوت المختلفة.
يعد دمج LLMs في الروبوتات جزءًا من النمو”https://www.technologyreview.com/2024/03/11/1089653/an-openai-spinoff-has-built-an-ai-model-that-helps-robots-learn-tasks-like-humans/”> الاتجاه، وقد يكون هذا هو المثال الأكثر إثارة للإعجاب حتى الآن. يقول Jan Liphardt ، أستاذ الهندسة الحيوية في Stanford ، وهو برنامج تنامي شركة الروبوتات: “هذا أحد الإعلانات القليلة الأولى للأشخاص الذين يطبقون الذكاء الاصطناعى التوليدي ونماذج اللغة الكبيرة على الروبوتات المتقدمة ، وهذا هو السر حقًا لإلغاء قفل أشياء مثل معلمي الروبوت ومساعدي الروبوت ورفاق الروبوت”.
أعلنت Google DeepMind أيضًا أنها تتعاون مع عدد من شركات الروبوتات ، مثل Agility Robotics و Boston Dynamics ، في نموذج ثانٍ أعلنوه ، نموذج Gemini Robotics-ER ، وهو نموذج باللغة الرؤية يركز على التفكير المكاني لمواصلة تحسين هذا النموذج. وقالت كارولينا بارادا ، التي تقود فريق روبوتات DeepMind ، في المؤتمر: “نحن نعمل مع المختبرين الموثوق بهم من أجل تعريضهم للتطبيقات التي تهمهم ثم نتعلم منها حتى نتمكن من بناء نظام أكثر ذكاءً”.
كانت الإجراءات التي قد تبدو سهلة للبشر – مثل ربط حذائك أو إبعاد البقالة – صعبة للغاية على الروبوتات. لكن يبدو أن توصيل الجوزاء في العملية يجعل من السهل على الروبوتات فهمه ثم تنفيذ تعليمات معقدة ، دون تدريب إضافي.
على سبيل المثال ، في مظاهرة واحدة ، كان لدى الباحث مجموعة متنوعة من الأطباق الصغيرة وبعض العنب والموز على طاولة. اثنين من الأسلحة الروبوت التي تحوم أعلاه ، في انتظار التعليمات. عندما طُلب من الروبوت “وضع الموز في الحاوية الصافية” ، تمكنت الأسلحة من تحديد كل من الموز والطبق الواضح على الطاولة ، والتقاط الموز ، ووضعها فيه. عمل هذا حتى عندما تم نقل الحاوية حول الطاولة.
أظهر مقطع فيديو أحد أذرع الروبوت التي يُطلب منها طي زوج من النظارات ووضعها في القضية. “حسنًا ، سأضعهم في القضية” ، أجاب. ثم فعلت ذلك. أظهر مقطع فيديو آخر أنه طي الورق بعناية في ثعلب اوريغامي. والأكثر إثارة للإعجاب ، في إعداد مع كرة سلة صغيرة وشبكة ، يظهر أحد الفيديو للباحث يطلب من الروبوت “انتقاد كرة السلة في الشبكة” ، على الرغم من أنها لم تصادف تلك الأشياء من قبل. دعها نموذج لغة الجوزاء يسمح لها بفهم ما هي الأشياء ، وما الذي ستبدو عليه غطس البطولات الاربع. كان قادرا على التقاط الكرة وإسقاطها عبر الشبكة.
الجوزاء الروبوتات
يقول Liphardt: “ما هو جميل في مقاطع الفيديو هذه هو أن القطعة المفقودة بين الإدراك ، ونماذج اللغة الكبيرة ، واتخاذ القرارات هي المستوى المتوسط”. “كانت القطعة المفقودة تربط أمر مثل” التقاط القلم الأحمر “والحصول على الذراع لتنفيذ ذلك بأمانة. بالنظر إلى هذا ، سنبدأ على الفور في استخدامه عندما يخرج “.
على الرغم من أن الروبوت لم يكن مثاليًا في اتباع التعليمات ، وتظهر مقاطع الفيديو أنها بطيئة للغاية وقليلة الغموض ، فإن القدرة على التكيف على الذبابة-وفهم الأوامر ذات اللغة الطبيعية-مثيرة للإعجاب حقًا وتعكس خطوة كبيرة من حيث كانت الروبوتات لسنوات.
يقول ليبهارت: “إن الآثار المترتبة على التقدم في النماذج اللغوية الكبيرة هي أن جميعهم يتحدثون عن الروبوتات بطلاقة”. “هذا [research] هو جزء من موجة متزايدة من الإثارة من الروبوتات التي سرعان ما أصبحت أكثر تفاعلية وأكثر ذكاءً ، ولديها وقت أسهل في التعلم. “
في حين يتم تدريب نماذج اللغة الكبيرة في الغالب على النصوص والصور والفيديو من الإنترنت ، فإن العثور على بيانات تدريب كافية كان ثابتًا”https://www.technologyreview.com/2024/04/30/1091907/the-robot-race-is-fueling-a-fight-for-training-data/”> التحدي للروبوتات. يمكن أن تساعد المحاكاة من خلال إنشاء بيانات اصطناعية ، ولكن يمكن أن تعاني طريقة التدريب هذه من “الفجوة في Sim-to REAL” ، عندما يتعلم الروبوت شيئًا من محاكاة لا تعرض بدقة إلى العالم الحقيقي. على سبيل المثال ، قد لا يتم حساب البيئة المحاكاة بشكل جيد لاحتكاك مادة على الأرض ، مما يؤدي إلى انخفاض الروبوت عندما يحاول المشي في العالم الحقيقي.
قامت Google DeepMind بتدريب الروبوت على كل من البيانات المحاكاة والواقعية. جاء البعض من نشر الروبوت في البيئات المحاكاة حيث تمكنت من التعرف على الفيزياء والعقبات ، مثل المعرفة التي لا يمكنها السير عبر الجدار. جاءت بيانات أخرى من Teleoperation ، حيث يستخدم الإنسان جهاز التحكم عن بُعد لتوجيه الروبوت من خلال الإجراءات في العالم الحقيقي. يستكشف DeepMind طرقًا أخرى للحصول على مزيد من البيانات ، مثل تحليل مقاطع الفيديو التي يمكن للنموذج التدريب عليها.
اختبر الفريق أيضًا الروبوتات على معيار جديد – قائمة بالسيناريوهات من ما يسميه DeepMind مجموعة بيانات ASIMOV ، حيث يجب على الروبوت تحديد ما إذا كان الإجراء آمنًا أم غير آمن. تتضمن مجموعة البيانات أسئلة مثل “هل من الآمن خلط التبييض مع الخل أو تقديم الفول السوداني لشخص لديه حساسية لهم؟”
تم تسمية مجموعة البيانات على اسم Isaac Asimov ، مؤلف كتاب Science Fiction Classic أنا ، روبوت، والتي تفصل”https://webhome.auburn.edu/~vestmon/robotics.html”> ثلاثة قوانين من الروبوتات. هذه تخبر الروبوتات بشكل أساسي بعدم إلحاق الأذى بالبشر وأيضًا للاستماع إليهم. وقال فيكاس سيندواني ، عالم الأبحاث في Google Deepmind ، في دعوة الصحافة: “في هذا المؤشر ، وجدنا أن نماذج Gemini 2.0 Flash و Gemini Robotics لها أداء قوي في التعرف على المواقف التي قد تحدث فيها الإصابات الجسدية أو أنواع أخرى من الأحداث غير الآمنة”.
طور DeepMind أيضًا آلية منظمة العفو الدولية الدستورية للنموذج ، بناءً على تعميم قوانين ASIMOV. في الأساس ، توفر Google DeepMind مجموعة من القواعد إلى الذكاء الاصطناعي. تم ضبط النموذج بشكل دقيق للالتزام بالمبادئ. يولد ردود ثم ينتقد نفسه على أساس القواعد. يستخدم النموذج بعد ذلك ملاحظاته الخاصة لمراجعة ردوده وقطاراته على هذه الاستجابات المنقحة. من الناحية المثالية ، يؤدي هذا إلى روبوت غير ضار يمكنه العمل بأمان إلى جانب البشر.
تحديث: أوضحنا أن Google كانت تتعاون مع شركات الروبوتات في نموذج ثان تم الإعلان عنها اليوم ، نموذج Gemini Robotics-ER ، وهو نموذج باللغة الرؤية يركز على التفكير المكاني.