من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

تريد رؤى أكثر ذكاء في صندوق الوارد الخاص بك؟ اشترك في النشرات الإخبارية الأسبوعية لدينا للحصول على ما يهم فقط للمؤسسات AI والبيانات وقادة الأمن. اشترك الآن


AI المادية ، حيث يجتمع الروبوتات ونماذج الأساس ، أصبحت بسرعة مساحة متنامية مع شركات مثل”https://www.nvidia.com/en-us/” الهدف=”_blank” rel=”noreferrer noopener”> nvidiaو”https://www.google.com/” الهدف=”_blank” rel=”noreferrer noopener”> جوجل و”https://www.meta.com/about/?srsltid=AfmBOorolLDOCypPEE-qOgCai6vzU8q_Z1FcBslkL5fab0awUFXs-LB8″ الهدف=”_blank” rel=”noreferrer noopener”> meta إطلاق البحث والتجربة في نماذج اللغة الكبيرة (LLMS) مع الروبوتات.

يهدف بحث جديد من معهد ألين من أجل الذكاء الاصطناعى (AI2) إلى تحدي Nvidia و Google في AI المادي مع إصدار Molmoact 7B ، وهو نموذج جديد مفتوح المصدر يسمح للروبوتات “بعقل في الفضاء. Molmoact ، استنادًا إلى Ai2 Open Source Molmo ،” يفكر “في ثلاثة أبعاد. CC BY-4.0.

يصنف AI2 Molmoact كنموذج التفكير الإجراء ، حيث يسبب النماذج الأساسية الإجراءات في الفضاء الجسدي ثلاثي الأبعاد.

ما يعنيه هذا هو أن Molmoact يمكنه استخدام قدرات التفكير الخاصة به لفهم العالم المادي ، والتخطيط لكيفية احتلاله للمساحة ثم اتخاذ هذا الإجراء.


يتساقط تحجيم الذكاء الاصطناعى حدوده

تتم إعادة تشكيل قبعات الطاقة ، وارتفاع تكاليف الرمز المميز ، والتأخيرات الاستدلال. انضم إلى صالوننا الحصري لاكتشاف كيف هي الفرق الكبرى:

  • تحويل الطاقة إلى ميزة استراتيجية
  • تعليم الاستدلال الفعال لتحقيق مكاسب الإنتاجية الحقيقية
  • فتح العائد على الاستثمار التنافسي مع أنظمة الذكاء الاصطناعى المستدامة

تأمين مكانك للبقاء في المقدمة:”https://bit.ly/4mwGngO”> https://bit.ly/4mwgngo


“لدى MOLMOACT التفكير في إمكانات الفضاء ثلاثية الأبعاد مقابل طرز العمل التقليدية (VLA)” ، “AI2 ، قال AI2 VentureBeat في رسالة بريد إلكتروني. “معظم نماذج الروبوتات هي VLAs التي لا تفكر أو تسبب في الفضاء ، ولكن Molmoact لديها هذه القدرة ، مما يجعلها أكثر أداء وقابلة للتعميم من وجهة نظر معمارية.”

الفهم البدني

نظرًا لأن الروبوتات موجودة في العالم المادي ، تدعي AI2 أن Molmoact تساعد الروبوتات في اتخاذها في محيطها واتخاذ قرارات أفضل حول كيفية التفاعل معهم.

وقالت الشركة: “يمكن تطبيق Molmoact في أي مكان تحتاجه الآلة إلى التفكير في محيطها المادي”. “إننا نفكر في الأمر بشكل أساسي في بيئة المنزل لأن هذا هو المكان الذي يكمن فيه التحدي الأكبر بالنسبة للروبوتات ، لأن هناك أشياء غير منتظمة وتتغير باستمرار ، ولكن يمكن تطبيق Molmoact في أي مكان.”

يمكن أن يفهم Molmoact العالم المادي من خلال إخراج “الرموز المميزة للإدراك المكاني” ، والتي هي الرموز المميزة المبللة واستخراجها باستخدام مشفر تلقائي متغير المتجه أو نموذج يحول مدخلات البيانات ، مثل الفيديو ، إلى رموز. وقالت الشركة إن هذه الرموز تختلف عن تلك المستخدمة من قبل VLAs من حيث أنها ليست مدخلات نصية.

هذه تتيح Molmoact لكسب الفهم المكاني وترميز الهياكل الهندسية. مع هذه ، يقدر النموذج المسافة بين الكائنات.

بمجرد أن يكون لها مسافة تقديرية ، يتنبأ Molmoact بعد ذلك بسلسلة من نقاط الطريق “فضاء الصورة” أو النقاط في المنطقة التي يمكن أن تضع فيها طريقًا إليها. بعد ذلك ، سيبدأ النموذج في إخراج إجراءات محددة ، مثل إسقاط الذراع ببضع بوصات أو يمتد.

قال باحثو AI2 إنهم كانوا قادرين على الحصول على النموذج للتكيف مع نماذج مختلفة (أي ، إما ذراع ميكانيكي أو روبوت بشري) “مع الحد الأدنى فقط من الضبط”.

أظهر اختبار القياس الذي أجراه AI2 أن Molmoact 7B كان معدل نجاح المهمة بنسبة 72.1 ٪ ، وفاز النماذج من Google ،”https://www.microsoft.com/” الهدف=”_blank” rel=”noreferrer noopener”> Microsoft و nvidia.

خطوة صغيرة إلى الأمام

تعد أبحاث AI2 هي الأحدث التي تستفيد من الفوائد الفريدة لـ LLMs و VLMS ، خاصة مع استمرار نمو وتيرة الابتكار في AI. يرى الخبراء في هذا المجال العمل من AI2 وشركات التكنولوجيا الأخرى كبنات بناء.

آلان فيرن ، أستاذ في”https://engineering.oregonstate.edu/” الهدف=”_blank” rel=”noreferrer noopener”> كلية الهندسة بجامعة ولاية أوريغون، أخبر VentureBeat أن بحث AI2 “يمثل تقدمًا طبيعيًا في تعزيز VLMs للروبوتات والتفكير الجسدي”.

وقال فيرن: “على الرغم من أنني لن أسميها ثوريًا ، إلا أنها خطوة مهمة إلى الأمام في تطوير نماذج التفكير المادي ثلاثي الأبعاد أكثر قدرة”. “إن تركيزهم على فهم المشهد ثلاثي الأبعاد حقًا ، على عكس الاعتماد على النماذج ثنائية الأبعاد ، يمثل تحولًا ملحوظًا في الاتجاه الصحيح. لقد قاموا بتحسينات على النماذج السابقة ، لكن هذه المعايير لا تزال تقصر عن التقاط تعقيد العالم الحقيقي وتبقى خاضعة للسيطرة نسبيًا وتويزًا في الطبيعة”.

وأضاف أنه على الرغم من أنه لا يزال هناك مجال للتحسين في المعايير ، إلا أنه “حريص على اختبار هذا النموذج الجديد في بعض مهام التفكير الجسدي لدينا”.

دانييل مورانا ، المؤسس المشارك لبدء التشغيل”https://www.gather.ai/” الهدف=”_blank” rel=”noreferrer noopener”> جمع الذكاء الاصطناعي، أشاد بانفتاح البيانات ، مشيرًا إلى أن “هذه أخبار رائعة لأن تطوير هذه النماذج وتدريبها مكلفة ، لذلك يعد هذا أساسًا قويًا للبناء على المختبرات الأكاديمية الأخرى وحتى الهواة المتفانين”.

زيادة الاهتمام في الذكاء الاصطناعي الجسدي

لقد كان حلمًا طويلًا للعديد من المطورين وعلماء الكمبيوتر لإنشاء روبوتات أكثر ذكاءً ، أو على الأقل أكثر وعياً مكانياً.

ومع ذلك ، فإن بناء الروبوتات التي تعالج ما يمكنهم “رؤيته” بسرعة ويتحرك ويتفاعل بسلاسة يصبح صعبًا. قبل ظهور LLMS ، كان على العلماء رمز كل حركة واحدة. هذا يعني بطبيعة الحال الكثير من العمل وأقل مرونة في أنواع الإجراءات الآلية التي يمكن أن تحدث. الآن،”https://venturebeat.com/ai/how-llms-are-ushering-in-a-new-era-of-robotics/”> الأساليب القائمة على LLM السماح للروبوتات (أو على الأقل الأسلحة الآلية) بتحديد الإجراءات الممكنة التالية التي يجب اتخاذها بناءً على الكائنات التي تتفاعل معها.

Google Research’s”https://research.google/blog/towards-helpful-robots-grounding-language-in-robotic-affordances/”> Saycan يساعد على السبب في سبب المهام باستخدام LLM ، مما يتيح الروبوت من تحديد تسلسل الحركات المطلوبة لتحقيق هدف. ميتا وجامعة نيويورك”https://venturebeat.com/automation/metas-ok-robot-performs-zero-shot-pick-and-drop-in-unseen-environments/”> OK-ROBOT يستخدم نماذج اللغة المرئية لتخطيط الحركة ومعالجة الكائنات.

معانقة الوجه صدر أ”https://venturebeat.com/ai/hugging-face-just-launched-a-299-robot-that-could-disrupt-the-entire-robotics-industry/”> $ 299 روبوت سطح المكتب في محاولة لإضفاء الطابع الديمقراطي على تنمية الروبوتات. نفيديا ، التي أعلن”https://venturebeat.com/ai/nvidias-gtc-2025-keynote-40x-ai-performance-leap-open-source-dynamo-and-a-walking-star-wars-inspired-blue-robot/”> AI المادية لتكون الاتجاه الكبير التالي، أصدرت عدة نماذج لتدريب الآثار السريعة سريعة المسار ،”https://venturebeat.com/ai/nvidias-cosmos-transfer1-makes-robot-training-freakishly-realistic-and-that-changes-everything/”> بما في ذلك cosmos-transfer1.

قال سرخس OSU إن هناك مزيد من الاهتمام في الذكاء الاصطناعي المادي على الرغم من أن العروض التجريبية محدودة. ومع ذلك ، فإن السعي لتحقيق الذكاء المادي العام ، الذي يلغي الحاجة إلى إجراءات برمجة الروبوتات بشكل فردي ، أصبح أسهل.

وقال: “إن المشهد أكثر صعوبة الآن ، مع فاكهة أقل معلقة. من ناحية أخرى ، لا تزال نماذج الذكاء المادي الكبيرة في مراحلها المبكرة وتكون أكثر نضجًا للتقدم السريع ، مما يجعل هذه المساحة مثيرة بشكل خاص”.

الرؤى اليومية حول حالات استخدام الأعمال مع VB يوميا

إذا كنت ترغب في إقناع رئيسك في العمل ، فقد غطيت VB Daily. نمنحك السبق الصحفي الداخلي على ما تفعله الشركات مع الذكاء الاصطناعي التوليدي ، من التحولات التنظيمية إلى عمليات النشر العملية ، حتى تتمكن من مشاركة رؤى لأقصى عائد على الاستثمار.

اقرأ لدينا”http://venturebeat.com/terms-of-service/”> سياسة الخصوصية

شكرا على الاشتراك. تحقق أكثر”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.

حدث خطأ.

اقرأ المزيد

تضيف Google تخصيص دردشة محدودة إلى الجوزاء ، ومسارات الأنثروبور و Openai في ميزات الذاكرة
Google Play Store Bants التي لا تملك ترخيصًا مصرفيًا

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل