من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

تتنافس روبوتات Google DeepMind ذات القدمين وجهاً لوجه بعد سنوات من الإعداد.

بواسطة |

سمح التعلم المعزز العميق لزوج من الروبوتات باللعب ضد بعضهما البعض. الائتمان: جوجل ديب مايند / توماس هارنوجا
يشارك

أصبح بإمكان Google DeepMind الآن تدريب روبوتات صغيرة جاهزة للاستخدام في ملعب كرة القدم. في ورقة جديدة نشرت اليوم في الروبوتات العلميةيشرح الباحثون تفاصيل جهودهم الأخيرة لتكييف مجموعة فرعية من التعلم الآلي تُعرف باسم التعلم المعزز العميق (deep RL) لتعليم الروبوتات ذات القدمين نسخة مبسطة من هذه الرياضة. يلاحظ الفريق أنه في حين أن التجارب المماثلة خلقت روبوتات رباعية الحركة للغاية (انظر: بوسطن ديناميات سبوت) في الماضي، تم إجراء قدر أقل بكثير من العمل على الآلات ذات الأرجل البشرية. لكن اللقطات الجديدة للروبوتات وهي يراوغون ويدافعون ويسددون الأهداف تظهر مدى جودة التعلم التعزيزي العميق للمدرب بالنسبة للآلات البشرية.

بينما كان المقصود في النهاية القيام بمهام ضخمة مثل التنبؤ بالمناخ و هندسة المواد, جوجل ديب مايند يمكن أيضًا أن تقضي تمامًا على المنافسين البشريين في ألعاب مثل شطرنج, يذهبوحتى ستاركرافت الثاني. لكن كل تلك المناورات الإستراتيجية لا تتطلب حركة وتنسيقًا جسديًا معقدًا. لذلك بينما يستطيع DeepMind الدراسة محاكاة حركات كرة القدم، لم يكن من الممكن ترجمتها إلى ساحة لعب فعلية، ولكن هذا يتغير بسرعة.

ولصنع ميسي المصغر، قام المهندسون أولاً بتطوير وتدريب مجموعتين من مهارات RL العميقة في المحاكاة الحاسوبية – القدرة على النهوض من الأرض وكيفية تسجيل الأهداف ضد خصم غير مدرب. ومن هناك، قاموا بتدريب نظامهم افتراضيًا للعب مباراة كرة قدم كاملة بين شخصين من خلال الجمع بين مجموعات المهارات هذه، ثم إقرانها بشكل عشوائي مع نسخ مدربة جزئيًا منهم.

[متعلقب:[Related:يتفوق تنبؤ الذكاء الاصطناعي الخاص بـ Google DeepMind على النموذج “المعياري الذهبي”..]

“وهكذا، في المرحلة الثانية، تعلم الوكيل الجمع بين المهارات التي تعلمها سابقًا، وصقلها لمهمة كرة القدم الكاملة، والتنبؤ بسلوك الخصم وتوقعه”، كما كتب الباحثون في مقدمة بحثهم، مشيرين لاحقًا إلى أنه “أثناء اللعب، لقد انتقل الوكلاء بين كل هذه السلوكيات بسلاسة.

بفضل إطار عمل RL العميق، سرعان ما تعلم العملاء المدعومون من DeepMind تحسين القدرات الحالية، بما في ذلك كيفية ركل كرة القدم وإطلاقها، وصد التسديدات، وحتى الدفاع عن مرماهم ضد خصم مهاجم باستخدام جسده كدرع.

خلال سلسلة من المباريات الفردية باستخدام الروبوتات التي تستخدم تدريب RL العميق، سار الرياضيان الميكانيكيان، واستدارا، وركلا، وانتصبا بشكل أسرع مما لو زودهما المهندسون ببساطة بخط أساسي مكتوب من المهارات. لم تكن هذه تحسينات طفيفة أيضًا، فبالمقارنة مع خط الأساس المكتوب غير القابل للتكيف، سارت الروبوتات بشكل أسرع بنسبة 181 بالمائة، وتحولت بشكل أسرع بنسبة 302 بالمائة، وركلت بشكل أسرع بنسبة 34 بالمائة، واستغرقت وقتًا أقل بنسبة 63 بالمائة للنهوض بعد السقوط. علاوة على ذلك، أظهرت الروبوتات العميقة المدربة على RL أيضًا سلوكيات جديدة ناشئة مثل التمحور على أقدامها والدوران. ستكون مثل هذه الإجراءات صعبة للغاية بالنسبة للنص المسبق بخلاف ذلك.

الائتمان: جوجل ديب مايند

لا يزال هناك بعض العمل الذي يتعين القيام به قبل أن تصل الروبوتات التي تعمل بنظام DeepMind إلى عالم التكنولوجيا RoboCup. في هذه الاختبارات الأولية، اعتمد الباحثون بشكل كامل على تدريب التعلم العميق القائم على المحاكاة قبل نقل تلك المعلومات إلى الروبوتات المادية. في المستقبل، يرغب المهندسون في الجمع بين التدريب التعزيزي الافتراضي وفي الوقت الفعلي لروبوتاتهم. ويأملون أيضًا في توسيع نطاق الروبوتات الخاصة بهم، لكن ذلك سيتطلب المزيد من التجارب والضبط الدقيق.

يعتقد الفريق أن استخدام أساليب RL العميقة المماثلة لكرة القدم، بالإضافة إلى العديد من المهام الأخرى، يمكن أن يزيد من تحسين حركات الروبوتات ذات القدمين وقدرات التكيف في الوقت الفعلي. ومع ذلك، فمن غير المرجح أن تقلق بشأن روبوتات DeepMind البشرية في ملاعب كرة القدم كاملة الحجم – أو في سوق العمل – حتى الآن. في الوقت نفسه، نظرًا للتحسينات المستمرة التي يحرزونها، ربما لا تكون الاستعداد لإطلاق صافرة الإنذار عليهم فكرة سيئة.

اقرأ أكثر

كيف يمكن لمسوقي الفنادق التغلب بنجاح على تكلفة الاكتساب (CPA) في Google وعروض الأسعار المشابهة المستندة إلى العمولات بقلم جينيفر أكسنيس
شركة AI Music Startup Udio تحصل على استثمار بقيمة 10 ملايين دولار — will.i.am وCommon وGoogle وInstagram Vets على متن الطائرة

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل