من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

AI التوليدي النماذج تقترب من اتخاذ إجراءات في العالم الحقيقي. بالفعل ، تقدم شركات الذكاء الاصطناعى الكبيرة”https://spectrum.ieee.org/ai-agents-computer-use” الهدف=”_blank”> وكلاء الذكاء الاصطناعي يمكن أن يعتني بأعمال مشغولة على الويب لك ، أو طلب محلات البقالة الخاصة بك أو تحفظ العشاء. اليوم،”https://spectrum.ieee.org/tag/google”> جوجل DeepMind أعلناثنان توليد”https://spectrum.ieee.org/tag/ai-models”> نماذج الذكاء الاصطناعي صُممت لتشغيل روبوتات الغد.

النماذج مبنية على كلاهما”https://spectrum.ieee.org/google-gemini” الهدف=”_blank”> Google Gemini، نموذج الأساس متعدد الوسائط الذي يمكنه معالجة بيانات النص والصوت والصور للإجابة على الأسئلة وتقديم المشورة والمساعدة بشكل عام. يدعو DeepMind أول النماذج الجديدة ، Gemini”https://spectrum.ieee.org/topic/robotics/”> الروبوتات، وهو “نموذج عمل متقدم-Language-Action” ، مما يعني أنه يمكن أن يستغرق كل هذه المدخلات نفسها ثم إخراج تعليمات الإجراءات المادية للروبوت. تم تصميم النماذج للعمل مع أي نظام أجهزة ، ولكن تم اختبارها في الغالب على مسلحين”https://aloha-2.github.io/” rel=”noopener noreferrer” الهدف=”_blank”> aloha 2 النظام الذي قدمه DeepMind العام الماضي.

في مقطع فيديو عرضي ، يقول صوت: “التقط”https://spectrum.ieee.org/tag/basketball”> كرة السلة و”https://spectrum.ieee.org/tag/slam”> SLAM دونك “(في 2:27 في الفيديو أدناه). ثم أ”https://spectrum.ieee.org/tag/robot-arm”> ذراع الروبوت تلتقط بعناية كرة سلة مصغرة ويسقطها إلى شبكة مصغرة-وعلى الرغم من أنها لم تكن دونك على مستوى الدوري الاميركي للمحترفين ، فقد كان ذلك يكفي لإثارة الباحثين العميق.

“0” الارتفاع=”auto” اكتب=”lazy-iframe” التمرير=”no” رونر البيانات src=”https://www.youtube.com/embed/R4uxDumfEPI?rel=0″ العرض=”100%”>“https://spectrum.ieee.org/tag/google-deepmind”> Google DeepMind تم إصدار هذا الفيديو التجريبي الذي يظهر إمكانات نموذج مؤسسة Gemini Robotics للسيطرة على الروبوتات. الجوزاء الروبوتات

“مثال كرة السلة هذا هو واحد من المفضلات الخاصة بي” ، قال”https://www.linkedin.com/in/kanishka-rao-57386a59/” rel=”noopener noreferrer” الهدف=”_blank”> Kanishka Rao، مهندس البرمجيات الرئيسي للمشروع ، في مؤتمر صحفي. ويوضح أن الروبوت لم يشاهد أبدًا أي شيء يتعلق بكرة السلة “، لكن نموذج الأساس الأساسي الذي كان له فهم عام للعبة ، ويعرف كيف تبدو شبكة كرة السلة ، وفهم ما يعنيه مصطلح” Slam Dunk “. لذلك كان الروبوت “قادرًا على توصيل هؤلاء [concepts] يقول راو: “لإنجاز المهمة في العالم المادي”.

ما هي تقدم الروبوتات الجوزاء؟

كارولينا بارادا، قال رئيس الروبوتات في Google DeepMind ، في إحاطة أن النماذج الجديدة تتحسن على الروبوتات السابقة للشركة في ثلاثة أبعاد: التعميم ، والقدرة على التكيف ، والبراعة. وقالت إن كل هذه التطورات ضرورية لإنشاء “جيل جديد من الروبوتات المفيدة”.

التعميم يعني أن الروبوت يمكنه قم بتطبيق مفهوم تعلمه في أحد السياق إلى موقف آخر ، ونظر الباحثون في التعميم البصري (على سبيل المثال ، هل يتم الخلط بينه إذا تغير لون كائن أو خلفية) ، وتعميم التعليمات (هل يمكن أن يفسر الأوامر التي يتم صياغتها بطرق مختلفة) ، وتعميم الإجراء (هل يمكن أن يؤدي إجراء لم يسبق له القيام به من قبل).

يقول بارادا أيضًا أن الروبوتات التي تعمل بها الجوزاء يمكن أن تتكيف بشكل أفضل مع التعليمات والظروف المتغيرة. لإثبات هذه النقطة في مقطع فيديو ، أخبر أحد الباحثين ذراعًا روبوتًا لوضع مجموعة من العنب البلاستيكي في حاوية Tupperware واضحة ، ثم انتقل إلى تغيير ثلاث حاويات على الطاولة”https://en.wikipedia.org/wiki/Shell_game” الهدف=”_blank”> لعبة شل. يتبع ذراع الروبوت على نحو ملموس الحاوية الصافية حولها حتى تتمكن من توجيهها.

“0” الارتفاع=”auto” اكتب=”lazy-iframe” التمرير=”no” رونر البيانات src=”https://www.youtube.com/embed/GVz78jHkzro?rel=0″ العرض=”100%”> تقول Google Deepmind أن Gemini Robotics أفضل من النماذج السابقة في التكيف مع التعليمات والظروف المتغيرة. Google DeepMind

أما بالنسبة للبراعة ، فقد أظهرت مقاطع الفيديو التجريبية الأسلحة الآلية وهي طي قطعة من الورق في”https://spectrum.ieee.org/tag/origami”> اوريغامي فوكس وأداء مهام حساسة أخرى. ومع ذلك ، من المهم أن نلاحظ أن الأداء المثير للإعجاب هنا هو في سياق مجموعة ضيقة من البيانات عالية الجودة التي تم تدريبها على هذه المهام المحددة ، وبالتالي فإن مستوى البراعة التي تمثلها هذه المهام لا يتم تعميمها.

ما هو المنطق المجسد؟

النموذج الثاني الذي تم تقديمه اليوم هو Robotics Gemini ، مع وجود ER لـ “التفكير المجسد” ، وهو نوع من العالم المادي البديهي الذي يفهم أن البشر يتطورون مع الخبرة مع مرور الوقت. نحن قادرون على القيام بأشياء ذكية مثل إلقاء نظرة على كائن لم نره من قبل من قبل ونقوم بتخمين متعلم حول أفضل طريقة للتفاعل معها ، وهذا ما يسعى DeepMind إلى محاكاة Gemini Robotics-ER.

أعطى بارادا مثالا على قدرة الجوزاء روبوتات إير على تحديد نقطة استيعاب مناسبة لالتقاط أ”https://spectrum.ieee.org/tag/coffee”> القهوة كوب. يحدد النموذج المقبض بشكل صحيح ، لأن هذا هو المكان الذي يميل فيه البشر إلى فهم أكواب القهوة. ومع ذلك ، يوضح هذا ضعفًا محتملًا في الاعتماد على الإنسان”https://spectrum.ieee.org/tag/training-data”> بيانات التدريب: بالنسبة للروبوت ، وخاصة الروبوت الذي قد يكون قادرًا على التعامل مع القدح بشكل مريح من القهوة الساخنة ، قد يكون المقبض الرقيق نقطة استيعاب أقل موثوقية بكثير من فهم القدح نفسه.

مقاربة ديبميند تجاه السلامة الآلية

فيكاس سيندوانييقول رئيس السلامة الآلية في DeepMind للمشروع ، إن الفريق اتخذ مقاربة ذات طبقات في السلامة. يبدأ بعناصر التحكم في السلامة الجسدية الكلاسيكية التي تدير أشياء مثل”https://spectrum.ieee.org/tag/collision-avoidance”> تجنب الاصطدام والاستقرار ، ولكن يتضمن أيضًا أنظمة “السلامة الدلالية” التي تقيم كل من تعليماتها وعواقب متابعتها. يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، إن هذه الأنظمة الأكثر تطوراً في نموذج الجوزاء الروبوتات ، إن هذه الأنظمة هي الأكثر تطوراً في نموذج الجوزاء الروبوتات.

ونظرًا لأن “السلامة ليست مسعى تنافسيًا” ، كما يقول Sindhwani ، فإن DeepMind تصدر مجموعة بيانات جديدة وما يسميه”https://asimov-benchmark.github.io/” الهدف=”_blank”> ASIMOV القياس، والتي تهدف إلى قياس قدرة النموذج على فهم قواعد الحياة السليم. يحتوي المعيار على كل من الأسئلة حول المشاهد المرئية وسيناريوهات النص ، وطرح آراء النماذج حول أشياء مثل استصواب خلط التبييض والخل (مزيج يصنع غاز الكلور) ووضع لعبة ناعمة على موقد ساخن. في الإحاطة الصحفية ، قال Sindhwani أن نماذج الجوزاء لها “أداء قوي” على هذا المعيار ، و”https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf” الهدف=”_blank”> التقرير الفني أظهرت أن النماذج حصلت على أكثر من 80 في المائة من الأسئلة الصحيحة.

شراكات DeepMind الآلية

مرة أخرى في ديسمبر ، شركة DeepMind و Humanoid Robotics”https://apptronik.com/” الهدف=”_blank”> apptronik أعلنت أ”https://apptronik.com/news-collection/apptronik-partners-with-google-deepmind-robotics” الهدف=”_blank”> الشراكة، وتقول بارادا إن الشركتين تعملان معًا “لبناء الجيل القادم من”https://spectrum.ieee.org/tag/humanoid-robots”> الروبوتات البشرية مع الجوزاء في جوهره “. تقوم DeepMind أيضًا بإتاحة نماذجها لمجموعة من “المختبرين الموثوق بهم”:”https://www.agile-robots.com/en/” الهدف=”_blank”> روبوتات رشيقةو”https://www.agilityrobotics.com/” الهدف=”_blank”> خفة الحركة الروبوتاتو”https://bostondynamics.com/” الهدف=”_blank”> بوسطن ديناميات، و”https://enchanted.tools/” الهدف=”_blank”> الأدوات الساحرة.

اقرأ المزيد

يستخدم Gemini Robotics نموذج اللغة الأعلى من Google لجعل الروبوتات أكثر فائدة
تقوم رسائل Google فقط بإصلاح بعض المشكلات الخطيرة في تلقي الصور ومقاطع الفيديو

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل