إصدار أمر بناءً على رغبتك؟
يظل المثابرة على المدى الطويل والتفاعلات في الوقت الفعلي بمثابة عقبات كبيرة أمام عوالم الذكاء الاصطناعي.
عينة من أفضل عوالم Genie 2 التي ترغب Google في عرضها. ائتمان:”https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/” الهدف=”_blank”> جوجل ديب مايند
جوجل في مارس”https://arstechnica.com/gadgets/2024/03/googles-genie-model-creates-interactive-2d-worlds-from-a-single-image/”>أظهرت أول نموذج Genie AI لها. وبعد التدريب على آلاف الساعات من ألعاب فيديو الجري والقفز ثنائية الأبعاد، تمكن النموذج من توليد انطباعات تفاعلية مقبولة جزئيًا عن تلك الألعاب استنادًا إلى صور عامة أو أوصاف نصية.
وبعد تسعة أشهر، هذا الأسبوع”https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/”>الكشف عن نموذج Genie 2 يوسع هذه الفكرة إلى عالم عوالم ثلاثية الأبعاد بالكامل، مع استكمال الصور الرمزية التي يمكن التحكم فيها من منظور الشخص الثالث أو الشخص الأول. يتحدث إعلان Google عن دور Genie 2 باعتباره “foundational world model” يمكنها إنشاء تمثيل داخلي تفاعلي بالكامل للبيئة الافتراضية. وتقول جوجل إن ذلك قد يسمح لعملاء الذكاء الاصطناعي بتدريب أنفسهم في بيئات اصطناعية ولكن واقعية، مما يشكل نقطة انطلاق مهمة على الطريق إلى الذكاء العام الاصطناعي.
ولكن بينما يُظهر Genie 2 مدى التقدم الذي حققه فريق Google Deepmind في الأشهر التسعة الماضية، فإن المعلومات العامة المحدودة حول النموذج حتى الآن تترك الكثير من الأسئلة حول مدى قربنا من أن تكون عوالم النماذج التأسيسية هذه مفيدة لأي شيء باستثناء بعض الأشياء. عروض تجريبية قصيرة ولكنها حلوة.
كم هي مدة ذاكرتك؟
يشبه إلى حد كبير نموذج 2D Genie الأصلي، يبدأ Genie 2 من صورة واحدة أو وصف نصي ثم يقوم بإنشاء إطارات فيديو لاحقة بناءً على كل من الإطارات السابقة والمدخلات الجديدة من المستخدم (مثل اتجاه الحركة أو “jump”). تقول جوجل إنها تدربت على أ “large-scale video dataset” لتحقيق ذلك، لكنه لا يذكر مقدار بيانات التدريب اللازمة مقارنة بـ 30 ألف ساعة من اللقطات المستخدمة لتدريب الجني الأول.
عروض GIF قصيرة قيد التشغيل”https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/”>الصفحة الترويجية لـ Google DeepMind أظهر استخدام Genie 2 لتحريك الصور الرمزية التي تتراوح من الدمى الخشبية إلى الروبوتات المعقدة إلى القارب على الماء. تُظهر التفاعلات البسيطة الموضحة في صور GIF تلك الصور الرمزية التي تخرق البالونات، وتتسلق السلالم، وتطلق البراميل المتفجرة دون أي محرك لعبة واضح يصف تلك التفاعلات.
ربما يكون التقدم الأكبر الذي تطالب به Google هنا هو Genie 2 “long horizon memory.” تسمح هذه الميزة للنموذج بتذكر أجزاء من العالم عندما تخرج من نطاق الرؤية ثم عرضها بدقة عند عودتها إلى الإطار بناءً على حركة الصورة الرمزية. وقد ثبت أن هذا النوع من المثابرة يمثل مشكلة مستمرة بالنسبة لنا”https://arstechnica.com/information-technology/2024/02/openai-collapses-media-reality-with-sora-a-photorealistic-ai-video-generator/”>نماذج توليد الفيديو مثل سورا، وهو ما قالته OpenAI في فبراير “do[es] not always yield correct changes in object state” ويمكن أن تتطور “incoherencies… in long duration samples.”
ال “long horizon” جزء من “long horizon memory” ربما تكون متحمسًا بعض الشيء هنا، مثل Genie 2 فقط “maintains a consistent world for up to a minute,” مع “the majority of examples shown lasting [10 to 20 seconds].” هذه بالتأكيد آفاق زمنية مثيرة للإعجاب في عالم اتساق فيديو الذكاء الاصطناعي، لكنها بعيدة جدًا عما تتوقعه من أي محرك ألعاب آخر في الوقت الفعلي. تخيل دخول بلدة في سكيريم-style RPG، ثم تعود بعد خمس دقائق لتجد أن محرك اللعبة قد نسي شكل تلك المدينة وأنشأ مدينة مختلفة تمامًا من الصفر بدلاً من ذلك.
ما الذي نقوم بإعداده بالضبط؟
ربما لهذا السبب، تقترح Google أن Genie 2 في وضعها الحالي أقل فائدة لإنشاء تجربة لعب كاملة وأكثر فائدة منها “rapidly prototype diverse interactive experiences” أو أن تتحول “concept art and drawings… into fully interactive environments.”
القدرة على تحويل ساكنة “concept art” إلى تفاعلية طفيفة “concept videos” يمكن بالتأكيد أن تكون مفيدة للفنانين البصريين الذين يقومون بطرح أفكار لعوالم ألعاب جديدة. ومع ذلك، قد تكون هذه الأنواع من العينات التي تم إنشاؤها بواسطة الذكاء الاصطناعي أقل فائدة في إنشاء نماذج أولية للعبة الفعلية التصاميم التي تتجاوز البصرية.
على Bluesky، مصمم الألعاب البريطاني Sam Barlow (سايلنت هيل: ذكريات محطمة, قصتها)”https://bsky.app/profile/mrsambarlow.bsky.social/post/3lclhskbxgk2r”> يشير كيف يستخدم مصممو الألعاب غالبًا عملية تسمى”https://www.gamedeveloper.com/design/white-boxing-your-game”>الملاكمة البيضاء لوضع هيكل عالم اللعبة على شكل مربعات بيضاء بسيطة قبل تحديد الرؤية الفنية بوقت طويل. الفكرة، كما يقول، هي أن “prove out and create a gameplay-first version of the game that we can lock so that art can come in and add expensive visuals to the structure. We build in lo-fi because it allows us to focus on these issues and iterate on them cheaply before we are too far gone to correct.”
إن إنشاء عوالم مرئية متقنة باستخدام نموذج مثل Genie 2 قبل تصميم البنية الأساسية يشبه إلى حد ما وضع العربة أمام الحصان. يبدو أن العملية تقريبًا مصممة لتوليد معلومات عامة،”https://en.wikipedia.org/wiki/Asset_flip”>”asset flip”-أسلوب عوالم تحتوي على صور تم إنشاؤها بواسطة الذكاء الاصطناعي وتغطي التفاعلات العامة والهندسة المعمارية.
كما بودكاستر ريان تشاو”https://bsky.app/profile/insrtcoins.bsky.social/post/3lcl6epzwm22k”> ضعه على بلوسكي, “The design process has gone wrong when what you need to prototype is ‘what if there was a space.'”
يجب أن أذهب بسرعة
وعندما كشفت جوجل عن الإصدار الأول من Genie في وقت سابق من هذا العام، فقد حدث ذلك أيضًا”https://arxiv.org/pdf/2402.15391v1″>أصدرت ورقة بحثية مفصلة تحديد الخطوات المحددة التي تم اتخاذها خلف الكواليس لتدريب النموذج وكيفية إنشاء هذا النموذج لمقاطع فيديو تفاعلية. لم يفعلوا الشيء نفسه بالنسبة لورقة بحثية توضح بالتفصيل عملية Genie 2، مما يتركنا نخمن بعض التفاصيل المهمة.
ومن أهم هذه التفاصيل سرعة النموذج. قام نموذج Genie الأول بإنشاء عالمه بمعدل إطار واحد تقريبًا في الثانية، وهو معدل أبطأ بكثير مما يمكن تشغيله في الوقت الفعلي. بالنسبة إلى Genie 2، تقول Google ذلك فقط “the samples in this blog post are generated by an undistilled base model, to show what is possible. We can play a distilled version in real-time with a reduction in quality of the outputs.”
عند القراءة بين السطور، يبدو أن الإصدار الكامل من Genie 2 يعمل بمستوى أقل بكثير من التفاعلات في الوقت الفعلي التي تتضمنها صور GIF المبهرجة. من غير الواضح كم “reduction in quality” من الضروري الحصول على نسخة مخففة من النموذج لضوابط في الوقت الحقيقي، ولكن نظرا لقلة الأمثلة المقدمة من جوجل، علينا أن نفترض أن التخفيض كبير.
إن إنشاء مقاطع فيديو تفاعلية مدعومة بالذكاء الاصطناعي في الوقت الفعلي ليس مجرد حلم بعيد المنال. في وقت سابق من هذا العام، صانع نماذج الذكاء الاصطناعي”https://www.decart.ai/”> ديكارت وصانع الأجهزة”https://www.etched.com/”>محفورا نشرت”https://oasis-model.github.io/”> نموذج الواحة، يعرض نسخة فيديو يمكن التحكم فيها بواسطة الإنسان ويتم إنشاؤها بواسطة الذكاء الاصطناعي ماين كرافت الذي يعمل بمعدل 20 إطارًا كاملاً في الثانية. ومع ذلك، فقد تم تدريب هذا النموذج المكون من 500 مليون معلمة على ملايين الساعات من لقطات لعبة واحدة بسيطة نسبيًا، وركز حصريًا على مجموعة محدودة من الإجراءات والتصميمات البيئية المتأصلة في تلك اللعبة.
عندما تم إطلاق Oasis، اعترف مبتكروها بالنموذج بالكامل “struggles with domain generalization,” تبين كيف “realistic” مشاهد البداية”https://oasis-model.github.io/colloseum.webp”> كان لا بد من تخفيضها إلى التبسيط ماين كرافت كتل لتحقيق نتائج جيدة. وحتى مع هذه القيود، ليس من الصعب القيام بذلك”https://www.forbes.com/sites/danidiplacido/2024/11/03/minecraft-is-finally-haunted-thanks-to-generative-ai/”> العثور على لقطات من الواحة”https://www.youtube.com/watch?v=pWh4u2sXBhU”> تتحول إلى وقود كابوس مرعب بعد بضع دقائق فقط من اللعب.
يمكننا بالفعل رؤية علامات انحطاط مماثلة في صور GIF القصيرة للغاية التي يشاركها فريق Genie، مثل الصورة الرمزية”https://deepmind.google/api/blob/website/media/long_video_1.mp4″> زغب يشبه الحلم أثناء الحركة عالية السرعة أو الشخصيات غير القابلة للعب”https://deepmind.google/api/blob/website/media/npc_1.mp4″> تتلاشى بسرعة إلى النقط غير المتمايزة على مسافة قصيرة. هذه ليست علامة رائعة للنموذج الذي “long memory horizon” من المفترض أن تكون ميزة رئيسية.
حضانة تعليمية لعملاء الذكاء الاصطناعي الآخرين؟
يبدو أن Genie 2 تستخدم إطارات اللعبة الفردية كأساس للرسوم المتحركة في نموذجها. ولكن يبدو أيضًا أنه قادر على استنتاج بعض المعلومات الأساسية حول الكائنات الموجودة في تلك الإطارات وصياغة التفاعلات مع تلك الكائنات بالطريقة التي قد يفعلها محرك اللعبة.
يوضح منشور مدونة Google كيف”https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/”> وكيل SIMA يمكن إدراجه في مشهد Genie 2 باتباع تعليمات بسيطة مثل “enter the red door” أو “enter the blue door,” التحكم في الصورة الرمزية عبر إدخالات بسيطة من لوحة المفاتيح والماوس. من المحتمل أن يجعل ذلك بيئة Genie 2 بمثابة منصة اختبار رائعة لعملاء الذكاء الاصطناعي في عوالم اصطناعية مختلفة.
تدعي Google بشكل مبالغ فيه إلى حد ما أن Genie 2 هو من قام بتشغيله “the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards [artificial general intelligence].” وسواء كان ذلك صحيحًا أم لا،”https://arxiv.org/abs/2402.05741″> الأبحاث الحديثة يوضح أن تعلم الوكيل المكتسب من النماذج التأسيسية يمكن تطبيقه بشكل فعال على الروبوتات في العالم الحقيقي.
قد يكون استخدام هذا النوع من نماذج الذكاء الاصطناعي لإنشاء عوالم لنماذج الذكاء الاصطناعي الأخرى للتعلم فيها هو حالة الاستخدام النهائية لهذا النوع من التكنولوجيا. ولكن عندما يتعلق الأمر بحلم نموذج الذكاء الاصطناعي الذي يمكنه إنشاء عوالم ثلاثية الأبعاد عامة يمكن للاعب بشري استكشافها في الوقت الفعلي، فقد لا نكون قريبين كما يبدو.
كايل أورلاند هو كبير محرري الألعاب في Ars Technica منذ عام 2012، ويكتب في المقام الأول عن الأعمال والتكنولوجيا والثقافة وراء ألعاب الفيديو. حصل على شهادات في الصحافة وعلوم الكمبيوتر من جامعة ميريلاند. هو مرة واحدة”https://bossfightbooks.com/collections/books/products/minesweeper-by-kyle-orland”> كتب كتابا كاملا عنه كاسحة ألغام.