TechSpot تحتفل بعيدها الخامس والعشرين. TechSpot تعني التحليل الفني والمشورة يمكنك الوثوق به.
في سياق: غالبًا ما تصور قصص الخيال العلمي الروبوتات القادرة على التفاعل الموثوق به مع البشر ، وتعمل Google على تقريب هذا الحلم المستقبلي من الواقع. طور مهندسو ماونتن فيو نموذجًا جديدًا للذكاء الاصطناعي يساعد الروبوتات على فهم وتنفيذ الإجراءات الآمنة للإنسان.
جوجل يصف Robotics Transformer 2 ، أو RT-2 للاختصار ، كنموذج رؤية – لغة – عمل (VLA). تم تدريب نموذج الذكاء الاصطناعي الجديد على النصوص والصور التي تم جمعها من الويب ، مما يسمح لها بإنشاء “إجراءات آلية”. في المقابل ، تم تصميم روبوتات المحادثة القائمة على الذكاء الاصطناعي لإنتاج مقتطفات نصية تطور الأفكار والمفاهيم.
فريق DeepMind من Google متطور RT-2 لنقل معرفة الويب إلى التحكم الآلي. على عكس روبوتات الدردشة ، تتطلب الروبوتات أسسًا واقعية لتكون مفيدة للبشر. تقر Google بأن تحقيق ذلك كان دائمًا جهدًا شاقًا ، حيث يجب على الروبوتات التعامل مع المهام المعقدة والمجردة في بيئات شديدة التغير وغير معروفة.
تعد نماذج التدريب مثل RT-2 مهمة أكثر تعقيدًا بكثير مقارنة بتدريب نماذج اللغة الكبيرة (LLM) لروبوتات المحادثة. وفقًا لـ Google ، يجب أن تمتد معرفة الروبوت إلى ما هو أبعد من مجرد معرفة تفاحة. يحتاج إلى التعرف على تفاحة في سياق معين ، وتمييزها عن كرة حمراء ، وفهم كيفية التقاطها والتعامل مع مختلف المهام ذات الصلة.
تاريخياً ، تطلب تدريب الروبوتات العملية “الواقعية” مليارات من نقاط البيانات المتعلقة بالعالم المادي. ومع ذلك ، تقدم RT-2 نهجًا جديدًا أكثر كفاءة. بالاستفادة من قدرة RT-1 على تعميم المعلومات عبر الأنظمة ، يمكن لـ RT-2 إنشاء نموذج واحد قادر على “التفكير المعقد” بكمية ضئيلة فقط من بيانات تدريب الروبوت. يشير هذا النهج الأخف إلى تقدم ملحوظ في طرق تدريب الروبوت.
تدعي Google أن RT-2 يمكنه نقل المعرفة من مجموعة كبيرة من بيانات الويب والتعامل مع المواقف المعقدة والطلبات من صنع الإنسان ، مثل التخلص من “قطعة من القمامة”. يدرك الذكاء الاصطناعي مفهوم “المهملات” ويعرف كيفية التخلص منه ، حتى بدون برمجة صريحة لهذا الإجراء المحدد. تعرض هذه القدرة قدرة النموذج على التعلم وأداء المهام بعد تدريبه الأولي.
أجرى مهندسو Google أكثر من 6000 “تجربة روبوتية” لنموذج RT-2. في المهام التي تعتمد على البيانات المستخدمة للتدريب ، تم تنفيذ النماذج على قدم المساواة مع نموذج الجيل السابق (RT-1). ومع ذلك ، تحسن أداء RT-2 بشكل كبير في السيناريوهات الجديدة وغير المعروفة ، حيث تضاعف من معدل إكمال RT-1 البالغ 32 بالمائة إلى 62 بالمائة. هذه القدرة على التكيف المعززة في المواقف غير المألوفة تعمل بشكل كبير على تطوير قدرات النموذج.
وفقًا لـ Google ، يوضح RT-2 كيف تؤثر التطورات في تكنولوجيا الذكاء الاصطناعي التوليدية على الروبوتات بسرعة ، مما يوفر إمكانات كبيرة لروبوتات للأغراض العامة أكثر عملية وتنوعًا. مع الاعتراف بأنه لا يزال هناك الكثير من العمل الذي يتعين القيام به ، فإن فريق DeepMind متفائل بشأن المسار الذي ينتظرنا.